- 相關(guān)推薦
數據分析前提:數據質(zhì)量管理四要素
數據質(zhì)量控制作為數據倉庫的基礎環(huán)節,是保障上層數據應用的基礎。數據質(zhì)量保證主要包括數據概要分析(Data Profiling)、數據審核(Data Auditing)和數據修正(Data Correcting)三個(gè)部分,前一篇文章介紹了Data Profiling的相關(guān)內容,從Data Profiling的過(guò)程中獲得了數據的概要統計信息,所以下面就要用這些數據統計信息來(lái)審核數據的質(zhì)量,檢查數據中是否存在臟數據,所以這一篇主要介紹數據審核(Data Auditing)的內容。
數據質(zhì)量的基本要素
首先,如何評估數據的質(zhì)量,或者說(shuō)怎么樣的數據才是符合要求的數據?可以從4個(gè)方面去考慮,這4個(gè)方面共同構成了數據質(zhì)量的4個(gè)基本要素。
完整性
數據的記錄和信息是否完整,是否存在缺失的情況。
數據的缺失主要有記錄的缺失和記錄中某個(gè)字段信息的缺失,兩者都會(huì )造成統計結果的不準確,所以完整性是數據質(zhì)量最基礎的保障,而對完整性的評估相對比較容易。
一致性
數據的記錄是否符合規范,是否與前后及其他數據集合保持統一。
數據的一致性主要包括數據記錄的規范和數據邏輯的一致性。數據記錄的規范主要是數據編碼和格式的問(wèn)題,比如網(wǎng)站的用戶(hù)ID是15位的數字、商品ID是10位數字,商品包括20個(gè)類(lèi)目、IP地址一定是用”.”分隔的4個(gè)0-255的數字組成,及一些定義的數據約束,比如完整性的非空約束、唯一值約束等;數據邏輯性主要是指標統計和計算的一致性,比如PV>=UV,新用戶(hù)比例在0-1之間等。數據的一致性審核是數據質(zhì)量審核中比較重要也是比較復雜的一塊。
準確性
數據中記錄的信息和數據是否準確,是否存在異;蛘咤e誤的信息。
導致一致性問(wèn)題的原因可能是數據記錄的規則不一,但不一定存在錯誤;而準確性關(guān)注的是數據記錄中存在的錯誤,比如字符型數據的亂碼現象也應該歸到準確性的考核范疇,另外就是異常的數值,異常大或者異常小的數值,不符合有效性要求的數值,如訪(fǎng)問(wèn)量Visits一定是整數、年齡一般在1-100之間、轉化率一定是介于0到1的值等。對數據準確性的審核有時(shí)會(huì )遇到困難,因為對于沒(méi)有明顯異常的錯誤值我們很難發(fā)現。
及時(shí)性
數據從產(chǎn)生到可以查看的時(shí)間間隔,也叫數據的延時(shí)時(shí)長(cháng)。
雖然說(shuō)分析型數據的實(shí)時(shí)性要求并不是太高,但并不意味了就沒(méi)有要求,分析師可以接受當天的數據要第二天才能查看,但如果數據要延時(shí)兩三天才能出來(lái),或者每周的數據分析報告要兩周后才能出來(lái),那么分析的結論可能已經(jīng)失去時(shí)效性,分析師的工作只是徒勞;同時(shí),某些實(shí)時(shí)分析和決策需要用到小時(shí)或者分鐘級的數據,這些需求對數據的時(shí)效性要求極高。所以及時(shí)性也是數據質(zhì)量的組成要素之一。
Data Auditing
基于數據質(zhì)量的4個(gè)要素,可以對數據進(jìn)行審核,以評估數據是否滿(mǎn)足完整性、一致性、準確性和及時(shí)性這4方面的要求,其中數據的及時(shí)性主要跟數據的同步和處理過(guò)程的效率相關(guān),更多的是通過(guò)監控ETL任務(wù)的方式來(lái)保證數據的及時(shí)性,所以這里的數據審核主要指的是評估數據的完整性、一致性和準確性。
完整性
我們從Data Profiling得到的數據統計信息里面看看哪些可以用來(lái)審核數據的完整性。首先是記錄的完整性,一般使用統計的記錄數和唯一值個(gè)數。比如網(wǎng)站每天的日志記錄數是相對恒定的,大概在1000萬(wàn)上下波動(dòng),如果某天的日志記錄數下降到了只有100萬(wàn),那很有可能記錄缺失了;或者網(wǎng)站的訪(fǎng)問(wèn)記錄應該在一天的24小時(shí)均有分布,如果某個(gè)整點(diǎn)完全沒(méi)有用戶(hù)訪(fǎng)問(wèn)記錄,那么很有可能網(wǎng)站在當時(shí)出了問(wèn)題或者那個(gè)時(shí)刻的日志記錄傳輸出現了問(wèn)題;再如統計訪(fǎng)客的地域分布時(shí),一般會(huì )包括全國的32個(gè)省份直轄市,如果統計的省份唯一值個(gè)數少于32,那么很有可能數據也存在缺失。
完整性的另一方面,記錄中某個(gè)字段的數據缺失,可以使用統計信息中的空值(NULL)的個(gè)數進(jìn)行審核。如果某個(gè)字段的信息理論上必然存在,比如訪(fǎng)問(wèn)的頁(yè)面地址、購買(mǎi)的商品ID等,那么這些字段的空值個(gè)數的統計就應該是0,這些字段我們可以使用非空(NOT NULL)約束來(lái)保證數據的完整性;對于某些允許空的字段,比如用戶(hù)的cookie信息不一定存在(用戶(hù)禁用cookie),但空值的占比基本恒定,比如cookie為空的用戶(hù)比例通常在2%-3%,我們同樣可以使用統計的空值個(gè)數來(lái)計算空值占比,如果空值的占比明顯增大,很有可能這個(gè)字段的記錄出現了問(wèn)題,信息出現缺失。
一致性
如果數據記錄格式有標準的編碼規則,那么對數據記錄的一致性檢驗比較簡(jiǎn)單,只要驗證所有的記錄是否滿(mǎn)足這個(gè)編碼規則就可以,最簡(jiǎn)單的就是使用字段的長(cháng)度、唯一值個(gè)數這些統計量。比如對用戶(hù)ID的編碼是15位數字,那么字段的最長(cháng)和最短字符數都應該是15;或者商品ID是P開(kāi)始后面跟10位數字,可以用同樣的方法檢驗;如果字段必須保證唯一,那么字段的唯一值個(gè)數跟記錄數應該是一致的,比如用戶(hù)的注冊郵箱;再如地域的省份直轄市一定是統一編碼的,記錄的一定是“上!倍皇恰吧虾J小、“浙江”而不是“浙江省”,可以把這些唯一值映射到有效的32個(gè)省市的列表,如果無(wú)法映射,那么字段通不過(guò)一致性檢驗。
一致性中邏輯規則的驗證相對比較復雜,很多時(shí)候指標的統計邏輯的一致性需要底層數據質(zhì)量的保證,同時(shí)也要有非常規范和標準的統計邏輯的定義,所有指標的計算規則必須保證一致。我們經(jīng)常犯的錯誤就是匯總數據和細分數據加起來(lái)的結果對不上,導致這個(gè)問(wèn)題很有可能的原因就是數據在細分的時(shí)候把那些無(wú)法明確歸到某個(gè)細分項的數據給排除了,比如在細分訪(fǎng)問(wèn)來(lái)源的時(shí)候,如果我們無(wú)法將某些非直接進(jìn)入的來(lái)源明確地歸到外部鏈接、搜索引擎、廣告等這些既定的來(lái)源分類(lèi),但也不應該直接過(guò)濾掉這些數據,而應該給一個(gè)“未知來(lái)源”的分類(lèi),以保證根據來(lái)源細分之后的數據加起來(lái)還是可以與總體的數據保持一致。如果需要審核這些數據邏輯的一致性,我們可以建立一些“有效性規則”,比如A>=B,如果C=B/A,那么C的值應該在[0,1]的范圍內等,數據無(wú)法滿(mǎn)足這些規則就無(wú)法通過(guò)一致性檢驗。
準確性
數據的準確性可能存在于個(gè)別記錄,也可能存在于整個(gè)數據集。如果整個(gè)數據集的某個(gè)字段的數據存在錯誤,比如常見(jiàn)的數量級的記錄錯誤,這種錯誤很容易發(fā)現,利用Data Profiling的平均數和中位數也可以發(fā)現這類(lèi)問(wèn)題。當數據集中存在個(gè)別的異常值時(shí),可以使用最大值和最小值的統計量去審核,或者使用箱線(xiàn)圖也可以讓異常記錄一目了然。
還有幾個(gè)準確性的審核問(wèn)題,字符亂碼的問(wèn)題或者字符被截斷的問(wèn)題,可以使用分布來(lái)發(fā)現這類(lèi)問(wèn)題,一般的數據記錄基本符合正態(tài)分布或者類(lèi)正態(tài)分布,那么那些占比異常小的數據項很可能存在問(wèn)題,比如某個(gè)字符記錄占總體的占比只有0.1%,而其他的占比都在3%以上,那么很有可能這個(gè)字符記錄有異常,一些ETL工具的數據質(zhì)量審核會(huì )標識出這類(lèi)占比異常小的記錄值。對于數值范圍既定的數據,也可以有效性的限制,超過(guò)數據有效的值域定義數據記錄就是錯誤的。
如果數據并沒(méi)有顯著(zhù)異常,但仍然可能記錄的值是錯誤的,只是這些值與正常的值比較接近而已,這類(lèi)準確性檢驗最困難,一般只能與其他來(lái)源或者統計結果進(jìn)行比對來(lái)發(fā)現問(wèn)題,如果使用超過(guò)一套數據收集系統或者網(wǎng)站分析工具,那么通過(guò)不同數據來(lái)源的數據比對可以發(fā)現一些數據記錄的準確性問(wèn)題。
via:網(wǎng)站數據分析
【數據分析前提:數據質(zhì)量管理四要素】相關(guān)文章:
銷(xiāo)售數據的分析方法07-25
數據分析報告07-28
大數據分析07-20
大數據分析07-25
多維數據分析方法04-07
數據分析簡(jiǎn)歷模板02-17
數據分析工作職責07-28
數據分析常用方法07-26
數據分析主管的職責01-13
數據分析報告【推薦】03-07