網站日誌分析 - 數據分析技術白皮書

19 網站日誌分析

第19章

Database

我們通常不會使用網站日誌數據作為網站分析的主要數據來源，但我們可以用網站日誌數據來彌補web分析工具中的不足。

典型的網站日誌文件

網站日誌數據的優勢在於不需要提前預裝跟踪代碼，只要你的網站上線，即網站代碼在服務器運行時，它就會開始記錄數據。

當用戶訪問你網站一個頁面，這時你的網站日誌就會記錄一行。
同時，當同一個用戶訪問網站上的另一個頁面或圖像，網站日誌又會記錄另一行。

通常來說，用戶訪問你的網站觸發任何行為，網站日誌都會一一記錄。

下面是一個典型的網站日誌記錄。用戶使用IP：192.168.22.10地址、成功訪問了網站首頁（/）（即HTTP的返回碼是200）、流量來源是谷歌（www.google.com）、用戶使用的是火狐瀏覽器。

192.168.22.10 - - [21/Nov/2003:11:17:55 -0400] "GET / HTTP/1.1" 200 10801 "http://www.google.com /search?q=china+seo&ie=utf-8&oe=utf-8 &aq=t&rls=org.mozilla:en-US:official&client=firefox-a" "Mozilla/5.0 ( Windows; U; Windows NT 5.2; en-US; rv:1.8.1.7) Gecko/20070914 Firefox/2.0.0.7"

網站日誌數據文件的缺陷

網站日誌數據文件是有短板的。

從網站日誌中獲得的數據不足以輸出完整的數據分析系列報表，目前大部分網站使用的是JavaScript等代碼來實現用戶在網站上的交互行為，但網站日誌不能記錄這些由JavaScript代碼產生的交互行為。這導致網站日誌分析數據缺失了用戶交互行為的數據。注意，很多典型的數據分析工具是能跟踪JavaScript交互行為的。

當你的網站有網站靜態的緩存文件時，文件緩存機制將只會返回用戶的緩存文件。例如，圖像文件、CSS文件、JavaScript文件等文件類型適用於文件緩存機制。所以，當你的網站日誌返回用戶緩存文件時，將不會被記錄到網站日誌中。

當網站每天的訪問數超過100,000時將會生成一個至少30G的網站日誌文件，那一個月就會累計1TB的原始數據。從如此大的原始數據中加工成人們易懂的日常報表是非常困難而且非常耗時的，而且還佔用了很多寶貴的儲存資源。

網站日誌中的搜索引擎蜘蛛數據

網站日誌數據主要優勢是能記錄搜索引擎蜘蛛訪問網站的數據。這也是其他網站分析工具不能做到的。

下面是一個典型的網站日誌記錄了搜索引擎蜘蛛（比如穀歌蜘蛛Googlebot）訪問/抓取你網站某一頁面（/a.html）的數據記錄：

66.250.65.101 - - [21/Nov/2003:04:54:20 -0400] "GET /a.html HTTP/1.1" 200 11179 "-" "Mozilla /5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

這個部分記錄了搜索引擎蜘蛛來自谷歌（Googlebot）：

compatible; Googlebot/2.1; +http://www.google.com/bot.html

我們如何利用搜索引擎蜘蛛數據

處理自然搜索流量的原理是這樣的：

抓取（Crawl） -> 索引（Index） -> 排名（Ranking） -> 流量（Traffic）

如果想要你的網站有排名和被搜索引擎索引，第一步是要讓搜索引擎蜘蛛抓取你的網站。

網站日誌數據能夠暴露網站的問題

在網站日誌文件中，無論是記錄用戶訪問的數據，還是記錄搜索引擎蜘蛛訪問/抓取的數據，都會顯示HTTP狀態碼。下面就是一些常見的HTTP狀態碼：

200狀態碼——表示返回成功
301狀態碼——永久性跳轉
302狀態碼——臨時性跳轉
404狀態碼——請求失敗，未找到
500—狀態碼——內部服務器錯誤
503狀態碼——服務不可用

在網站日誌裡，所有的記錄返回200或300狀態碼表示沒有異常，如果返回404、500或503狀態碼表示存在問題你應該注意一下了。

數據分析技術白皮書在2016年11月正式出版。

英文版：Web Server Log Analytics – 簡體中文版：網站日誌分析

Analytics Book繁體中文版上的內容按下列許可協議發布： CC Attribution-Noncommercial 4.0 International

Gordon Choi's Analytics Book