如果在大數(shù)據(jù)時代進行完美的網(wǎng)絡(luò)數(shù)據(jù)分析
2016-12-12閱讀量:

1、多來源地收集數(shù)據(jù);
2、對數(shù)據(jù)做初步的清洗整理;
3、著重注意一些可能會造成偏差的數(shù)據(jù)類型。
一、數(shù)據(jù)的來源
多來源地收集數(shù)據(jù)是盡可能地保證數(shù)據(jù)的全面性,從而能從更多角度地分析問題。一般來說,數(shù)據(jù)的來源類型主要有點擊流數(shù)據(jù)、業(yè)務(wù)運營數(shù)據(jù)、實驗測試數(shù)據(jù)、用戶調(diào)研數(shù)據(jù)、行業(yè)發(fā)展數(shù)據(jù)、競爭對手數(shù)據(jù)。1)點擊流數(shù)據(jù)
點擊流數(shù)據(jù)主要是解釋 “What” 的問題。一般有以下幾種收集方式。1.通過網(wǎng)站日志的形式獲取得到;
2.通過百度統(tǒng)計等第三方工具獲取;
3.通過對網(wǎng)站埋點的方式獲?。?br /> 例如:訪問數(shù)、頁面瀏覽數(shù)、停留時長等都屬于點擊流數(shù)據(jù)。
2)業(yè)務(wù)運營數(shù)據(jù)
業(yè)務(wù)運營數(shù)據(jù)主要解釋”How much”的問題。主要是一些存放在前臺數(shù)據(jù)庫的數(shù)據(jù),這些數(shù)據(jù)可以直接衡量網(wǎng)站的績效和目標。一般可通過查詢后臺數(shù)據(jù)獲取。例如:銷售額、訂單量、購買用戶數(shù)等指標。3)實驗測試數(shù)據(jù)
實驗數(shù)據(jù)主要解釋“Which”的問題。實驗測試數(shù)據(jù)一般都是臨時采集的,功能是為了某些專題的分析,比如網(wǎng)站改版、用戶體驗的優(yōu)化等。網(wǎng)站分析中最常見的實驗測試就是A/B測試,即從兩個方案中選擇更優(yōu)的方案。4)用戶調(diào)研數(shù)據(jù)
用戶調(diào)研數(shù)據(jù)功能主要是去找到“Why”的結(jié)果。直接詢問用戶無疑是最有效的,最常見的用戶調(diào)研方式是問卷調(diào)查,讓用戶直接回答問題來解釋問題的原因。當然,用戶調(diào)研屬于典型的定性分析,如果結(jié)合定量分析一起進行會更準確。5)行業(yè)發(fā)展數(shù)據(jù)
行業(yè)發(fā)展數(shù)據(jù)與自身的數(shù)掘進行比較,往往可以看到自身存在的不足。很多第三方咨詢分析機構(gòu)會定期出一些行業(yè)的數(shù)據(jù)報告,可以從這些報告中發(fā)掘一些有用的行業(yè)信息。6)競爭對手數(shù)據(jù)
與行業(yè)數(shù)據(jù)一樣,對競爭對手的分析也是發(fā)現(xiàn)自身優(yōu)劣勢的最好方法。而且網(wǎng)站本身為了讓用戶了解到一些信息也會展現(xiàn)一些數(shù)據(jù),而這些數(shù)據(jù)也是分析競爭對手的一種途徑。二、對數(shù)據(jù)的初步清洗與整理
數(shù)據(jù)的清洗與整理是為了保證數(shù)據(jù)的完整性、一致性和準確性。1)數(shù)據(jù)的完整性
保證數(shù)據(jù)的完整性就需要盡量減少數(shù)據(jù)源的缺失值對數(shù)據(jù)分析帶來的影響。為了之后的統(tǒng)計和分析的需要,一般通過均值、中位數(shù)、眾數(shù),或者根據(jù)指標的變化趨勢使用回歸分析進行擬合后算出預(yù)測值,如果與其他的指標存在相關(guān)性,也可以結(jié)合其他的指標進行估算。2)數(shù)據(jù)的一致性
要保證數(shù)據(jù)的一致性,就要保證整個數(shù)據(jù)采集階段的描述一致性、記錄一致性、既定的規(guī)則一致性。1、描述的一致性:比如省份的細分數(shù)據(jù),一個數(shù)據(jù)源記錄的是“京”,另外一個是“北京市”;這時候可以通過觀察省份字段的所有唯一值排序的結(jié)果,這樣類似的不一致的描述就會一目了然。
2、記錄一致性:記錄一致性一般是由于數(shù)據(jù)的重復錄入,如果發(fā)生在數(shù)據(jù)庫中,我們則可以使用主鍵約束或者唯一約束去避免類似情況的發(fā)生。
3、既定的規(guī)則一致性:這個要求采集到的數(shù)據(jù)在總體和細分上保持一致,如果不一致,很有可能就是數(shù)據(jù)模型的設(shè)計或者維表的結(jié)構(gòu)存在問題。當然,也可能是某些指標的定義和計算規(guī)則沒有統(tǒng)一。