谷歌分析採樣數據


第14章

Server

數據採樣可能會是一個重要問題。當一定的條件滿足的時候,谷歌分析在數據報告中展示採樣數據。

如果一個的谷歌分析媒體資源(property)正在收集的數據超過了一個媒體資源的數據大小時,這個谷歌分析媒體資源開始在報告中展示採樣數據。

數據採樣是如何發生的?

數據採樣在如下情況發生:

  • 你的某一個報告的預聚合數據中中每天有超過50,000個獨立行。
  • 編制報告時,在非聚合數據中有超過500,000個會話。

當數據採樣發生時,你的報告開始在細節數據上丟失精確度並且谷歌分析會展示一條消息告訴你,報告是基於採樣數據,例如:

“這個報告基於100,000個會話(佔所有會話的10.00%)”。

數據採樣是如何造成問題的?

舉個例子,在你選擇的數據范圍內有1,,000,000個會話,谷歌分析提取100,000個會話(所有會話的10.00%)用於計算你的報告指標,然後乘以10來獲得總量。

假設谷歌分析從總量為1,000,000的會話中記錄某個特定著陸頁URL的10,000個會話。這就將所有這個特定著陸頁的會話轉化到總量的1%。如果是10%的採樣,谷歌分析可能會從所有1,000,000個會話中隨機選取100,000個會話。在這100,000個被選取的會話中,只有8,000個會話屬於這個特定的著陸頁,谷歌分析就是這樣來報告這個特定的著陸頁會話的。

如何提高采樣數據的精確度?

在谷歌分析報告中,你既可以通過增加樣本大小來提高精度,也可以通過減少樣本大小來提高報告處理速度。你唯一要做的的就是撥動一個滑塊。

如果你增加樣本量大小,你的報告將會從一個更大的樣本會話中計算。例如:

“這個報告基於200,000個會話(佔所有會話的20.00%)”。

數據採樣導致的問題最終被解決了嗎?

在免費版的谷歌分析中,採樣數據不能完全避免,只能被最小化。

通過撥動滑塊來增加樣本數據大小,你的報告將可以提高精確度。然而,谷歌分析已經限定了在你的報告中你最多能有多少樣本數據,也就是說,在報告中你無法徹底擺脫採樣數據。

怎樣減少採樣數據?

你想限定出現在你的谷歌分析報告中的採樣數據數量。

其中一個辦法就是減少獨立URL的數量,可以通過如下方式:

  • 通過把URL全部轉化成小寫來合併URL。
  • 通過使用“排除URL查詢參數”來合併URL。
  • 一個特定的網頁只使用一個URL版本。

通過把URL全部轉化成小寫來合併URL

以下兩個URL。

m.example.com/Hotel/List/Shanghai-Hotels/
m.example.com/hotel/list/shanghai-hotels/

其中一個URL還有一個大小字母,另一個則全部是小寫字母。無論你輸入第一個或者第二個URL,瀏覽器將返回完全相同的頁面。

然而,谷歌分析把他們認為是兩個單獨的URL。在谷歌分析中,它們會在報告中展示為兩個單獨的行。

這將會在你的報告中額外增加一行,這完全沒有必要。當你的數據報告中有很多不必要的行時,你的谷歌分析媒體資源將會很快到達每天50,000個獨立行的預聚合數據的上限。因此,樣本數據將會在你的報告中迅速增長。

你可以使用過濾器來講它們變為谷歌分析數據報告中的一個單獨行。

視圖 -> 過濾器 -> 添加過濾器 -> 創建新過濾器
  • 在過濾器名稱一欄輸入“小寫URL”。
  • 選中自定義標籤,選擇“小寫”作為過濾器類型,並選擇“請求URL”作為過濾字段。
  • 點擊保存。

這個過濾器將會把所有URL中的任何大寫字母轉換為小寫。

m.example.com/hotel/list/shanghai-hotels/

以後登入到你的谷歌分析報告,你將會看到只有一種版本的上述URL,並且它是小寫的。

合併類似的URL

考慮有一個酒店預定網站,可能會有一個URL用於展示在上海的15個酒店的列表。

m.example.com/hotel/list/shanghai

對於一個典型的酒店預定業務,你需要展示特定簽入時間、特定簽出時間期間可以被預定的酒店。為了獲取上述信息,很多酒店預定網站會在URL中增加參數和值。

m.example.com/hotel/list/shanghai?check-in-date=2015-11-01&check-out-date=2015-11-03
m.example.com/hotel/list/shanghai?check-in-date=2015-11-05&check-out-date=2015-11-06

這兩個帶有不同簽入和簽出日期區間的頁面或許會有細微的差別,但是他們本質上是一個頁面。把日期作為URL的值,你很容易就會面臨無限的URL的窘境。在很多情況下,把所有的三個URL看成是一個頁面並且作為一個單獨的URL上報,將會使問題變得容易。

m.example.com/hotel/list/shanghai

在你的谷歌分析媒體資源中,進入:

視圖 -> 視圖設置
  • 在排除URL查詢參數一欄,輸入需要排除的參數名稱。如果你有多於一個的參數需要被排除,用逗號分隔列出所有參數的名稱。
  • 注意在排除URL查詢參數欄裡,你不需要輸入問號(?),和號(&),等號(=),或任意其他的符號或定界符。
  • 現在點擊保存。

在上述的示例中,合併URL將會減少出現在谷歌分析報告中的獨立URL的數量。這將會減少數據量,進而在遇到數據採樣問題前給你留出更多的數據空間。

合併頁面相同的URL

考慮這個示例,你的網站使用如下幾個URL作為首頁。

m.example.com/
m.example.com/index.aspx
m.example.com/default.html

事實上,對於一個單獨的主頁,你不應當使用多個URL。

  • 不同版本的URL有時會讓用戶感到困惑。
  • 在你的谷歌分析數據報告中,你永遠需要三行來展示首頁的指標。這會造成在你的數據報告中你永遠有無用的行,並且會比正常環境下更快的達到行上限。
  • 你不得不採用一種笨拙的方式對首頁數據進行求和。

為了解決這個問題,在谷歌分析媒體資源中,進入:

視圖 -> 過濾器 -> 添加過濾器 -> 創建新過濾器
  • 在過濾器名稱欄中輸入“移除index和defalut”。
  • 選擇自定義標籤,選擇“搜索並替換”作為過濾類型,並選擇“請求URL”作為過濾字段。
  • 在搜索字符串中,輸入(index|default)\.(aspx|html)
  • 在替換字符串中,留空。
  • 點擊保存。

以後登入你的谷歌分析報告,你將會看到只有一個版本的URL:

m.example.com/

另一個示例中,酒店預定網站使用一個頁面的多個版本的URL。考慮那個在上海的15個酒店的列表頁面。他們是兩種典型的方式代表同一個頁面。

靜態URL: http://m.example.com/hotel/list/shanghai
動態URL: http://m.example.com/hotel/list?city=shanghai

在你的谷歌分析報告中,你只需要出現其中一個,最好是第一個URL(即靜態URL)。

在谷歌分析媒體資源中,進入:

視圖 -> 過濾器 -> 添加過濾器 -> 創建新過濾器
  • 在過濾器名稱欄中輸入“移除index和default”。
  • 選擇自定義標籤,選擇“搜索並替換”作為過濾類型,並選擇“請求URL”作為過濾字段。
  • 在搜索字符串中,輸入\?city\=
  • 在替換字符串中,輸入\/
  • 點擊保存。

進入你的谷歌分析報告,你將會看到只有一個版本的URL:

m.example.com/hotel/list/shanghai

如果數據採樣是你的網站數據收集、數據上報、數據分析的一個長期問題,那麼可以考慮升級到付費的谷歌分析高級版。

URL合併不當示例

如果你在合併時不當的將不該進行合併的URL進行合併的話,那麼你將會丟失一些數據粒度。不當示例如下:

m.example.com/hotel/list/shanghai
m.example.com/hotel/list/shanghai?district=xuhui&brand=hanting
m.example.com/hotel/list/shanghai?district=changning&brand=jinjiang
m.example.com/hotel/list/shanghai?district=baoshan&brand=hanting

所有的URL代表不同的位置,將它們合併為一個獨立的URL毫無意義。



數據分析技術白皮書在2016年11月正式出版。

英文版:Google Analytics Sampled Data – 簡體中文版:谷歌分析採樣數據







Analytics Book繁體中文版上的內容按下列許可協議發布: CC Attribution-Noncommercial 4.0 International

Gordon Choi's Analytics Book