- 醫學(xué)數據分析方法 推薦度:
- 數據整理分析方法 推薦度:
- 傳統數據分析方法 推薦度:
- 相關(guān)推薦
數據分析的方法
數據分析是指用適當的統計分析方法對收集來(lái)的大量數據進(jìn)行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過(guò)程。小編整理的數據分析方法,供參考!
一、以往的數據分析
在今天的各類(lèi)型企業(yè)中,數據分析崗位已經(jīng)基本得到普及和認可,這個(gè)崗位的核心任務(wù)往往是支撐運營(yíng)和營(yíng)銷(xiāo),將企業(yè)內部的數據,客戶(hù)的數據進(jìn)行分析和總結,形成以往工作情況的量化表現,以及客戶(hù)的行為趨勢或特征等。
如果從更宏觀(guān)的角度來(lái)認識數據分析崗位的話(huà),每一個(gè)數據分析人員都明白,其實(shí)數據分析崗位要達到的目標就是希望通過(guò)數據來(lái)發(fā)現潛在的規律,進(jìn)而幫助預測未來(lái),這一點(diǎn)同數據挖掘的目標一致。那么為什么在大多數公司都已經(jīng)具備的數據分析崗位基礎上,今天卻還是在反復提到數據挖掘這個(gè)概念,我們就需要來(lái)看看數據分析都有哪些是沒(méi)有做到的內容。
數據分散
多數數據分析崗位在公司中的崗位設置是隸屬在單一業(yè)務(wù)部門(mén)中作為一個(gè)支撐崗,只有少數的公司是將數據分析作為一個(gè)獨立的部門(mén)。其差異性在于,前者的數據分析所能分析的內容僅限于自身部門(mén)所輸出的指標,比如投訴部門(mén)只看投訴處理過(guò)程中的數據,銷(xiāo)售部門(mén)只看銷(xiāo)售過(guò)程中的數據,一旦涉及到需要將各類(lèi)指標匯總分析的情況,這種組織架構就會(huì )帶來(lái)極大的負面影響,由于不同部門(mén)具備自己部門(mén)指標導出的權限,且與其他部門(mén)的配合并不影響績(jì)效任務(wù),所以這種跨部門(mén)采集數據的過(guò)程往往效率奇低。而數據分析最關(guān)鍵的就在于匯集更多的數據和更多的維度來(lái)發(fā)現規律,所以以往的數據分析多是做最基礎的對比分析以及帕累托分析,少有使用算法來(lái)對數據進(jìn)行挖掘的動(dòng)作,因為越少的指標以及越少的維度將會(huì )使得算法發(fā)揮的效果越差。
指標維度少
在以往的企業(yè)中,數字化管理更多的體現在日常運維工作中,對于客戶(hù)端的數據采集雖然從很早以前就已經(jīng)開(kāi)展,CRM系統的誕生已經(jīng)有很久的時(shí)間了,但是一直以來(lái)客戶(hù)端的數據維度卻十分缺失,其原因在于上述這些途徑所獲得的數據多為客戶(hù)與企業(yè)產(chǎn)生交互之后到交互結束之間的數據,但是這段時(shí)間只是這個(gè)客戶(hù)日常生活中很少的一部分內容,客戶(hù)在微博,微信上的行為特點(diǎn),關(guān)注的領(lǐng)域或是品牌,自身的`性格特點(diǎn)等,可以說(shuō)一個(gè)客戶(hù)真正的特點(diǎn),習慣,僅通過(guò)與企業(yè)的交互是無(wú)從知曉的,因此難以挖掘出有效的結論。
少使用算法
在上述制約條件下,可想而知數據分析人員對于算法的使用必然是較少的,因為數據分析依賴(lài)于大量的指標、維度以及數據量,沒(méi)有這三個(gè)條件是難以發(fā)揮算法的價(jià)值的,而在排除掉算法后,數據分析人員更多的只能是針對有限的數據做最為簡(jiǎn)單的分析方法,得出淺顯易懂的分析結論,為企業(yè)帶來(lái)的價(jià)值則可以想象。
數據分析系統較弱
目前的數據分析多采用excel,部分數據分析人員能夠使用到R或SPSS等軟件,但當數據量達到TB或PB單位級別時(shí),這些軟件在運算時(shí)將會(huì )消耗大量時(shí)間,同時(shí)原始的數據庫系統在導出數據時(shí)所花費的時(shí)間也是相當長(cháng)的,因此對大數據量的分析工作,常規的系統支撐難以到達要求。
二、技術(shù)革命與數據挖掘
得益于互聯(lián)網(wǎng)對于人們生活的影響逐漸增大,我們發(fā)現數據正在瘋狂的增長(cháng)。今天一個(gè)人一天的時(shí)間中有將近一半是在互聯(lián)網(wǎng)中度過(guò)的',一方面這些使用互聯(lián)網(wǎng)的交互都是能夠被捕捉記錄的,一方面由于碎片化時(shí)間的使用,客戶(hù)與企業(yè)交互的機會(huì )也變的越來(lái)越頻繁,進(jìn)一步保障了客戶(hù)數據的豐富。同時(shí)在大數據技術(shù)的支撐下,今天的系統能夠允許對這些大規模的數據量進(jìn)行高效的分析。
因此數據分析人員也能夠開(kāi)始使用一些較為抽象的算法來(lái)對數據做更為豐富的分析。所以數據分析正式進(jìn)入到了數據分析2.0的時(shí)代,也就是數據挖掘的時(shí)代了。
三、數據處理流程
數據分析也即是數據處理的過(guò)程,這個(gè)過(guò)程是由三個(gè)關(guān)鍵環(huán)節所組成:數據采集,數據分析方法選取,數據分析主題選擇。這三個(gè)關(guān)鍵環(huán)節呈現金字塔形,其中數據采集是最底層,而數據分析主題選擇是最上層。
四、數據采集
數據采集即是如何將數據記錄下來(lái)的環(huán)節。在這個(gè)環(huán)節中需要著(zhù)重說(shuō)明的是兩個(gè)原則,即全量而非抽樣,以及多維而非單維。今天的技術(shù)革命和數據分析2.0主要就是體現在這個(gè)兩個(gè)層面上。
全量而非抽樣
由于系統分析速度以及數據導出速度的`制約,在非大數據系統支撐的公司中,做數據分析的人員也是很少能夠做到完全全量的對數據進(jìn)行收集和分析。在未來(lái)這將不再成為問(wèn)題。
多維而非單維
另一方面則在于數據的維度上,這在前邊同樣提及?傊槍蛻(hù)行為實(shí)現5W1H的全面細化,將交互過(guò)程的什么時(shí)間、什么地點(diǎn)、什么人、因為什么原因、做了什么事情全面記錄下來(lái),并將每一個(gè)板塊進(jìn)行細化,時(shí)間可以從起始時(shí)間、結束時(shí)間、中斷時(shí)間、周期間隔時(shí)間等細分;地點(diǎn)可以從地市、小區、氣候等地理特征、渠道等細分;人可以從多渠道注冊賬號、家庭成員、薪資、個(gè)人成長(cháng)階段等細分;原因可以從愛(ài)好、人生大事、需求層級等細分;事情可以從主題、步驟、質(zhì)量、效率等細分。通過(guò)這些細分維度,增加分析的多樣性,從而挖掘規律。
五、數據分析方法選取
數據分析方法是通過(guò)什么方法去組合數據從而展現規律的環(huán)節。從根本目的上來(lái)說(shuō),數據分析的任務(wù)在于抽象數據形成有業(yè)務(wù)意義的結論。因為單純的數據是毫無(wú)意義的,直接看數據是沒(méi)有辦法發(fā)現其中的規律的,只有通過(guò)使用分析方法將數據抽象處理后,人們才能看出隱藏在數據背后的規律。
數據分析方法選取是整個(gè)數據處理過(guò)程的核心,一般從分析的方法復雜度上來(lái)講,我將其分為三個(gè)層級,即常規分析方法,統計學(xué)分析方法跟自建模型。我之所以這樣區分有兩個(gè)層面上的考慮,分別是抽象程度以及定制程度。
其中抽象程度是說(shuō),有些數據不需要加工,直接轉成圖形的方式呈現出來(lái),就能夠表現出業(yè)務(wù)人員所需要的業(yè)務(wù)意義,但有些業(yè)務(wù)需求,直接把數據轉化成圖形是難以看出來(lái)的,需要建立數據模型,將多個(gè)指標或一個(gè)指標的多個(gè)維度進(jìn)行重組,最終產(chǎn)生出新的數據來(lái),那么形成的這個(gè)抽象的結果就是業(yè)務(wù)人員所需要的業(yè)務(wù)結論了;谶@個(gè)原則,可以劃分出常規分析方法和非常規分析方法。
那么另一個(gè)層面是定制程度,到今天數學(xué)的發(fā)展已經(jīng)有很長(cháng)的時(shí)間了,其中一些經(jīng)典的`分析方法已經(jīng)沉淀,他們可以通用在多用分析目的中,適用于多種業(yè)務(wù)結論中,這些分析方法就屬于通用分析方法,但有些業(yè)務(wù)需求確實(shí)少見(jiàn),它所需要的分析方法就不可能完全基于通用方法,因此就會(huì )形成獨立的分析方法,也就是專(zhuān)門(mén)的數學(xué)建模,這種情況下所形成的數學(xué)模型都是專(zhuān)門(mén)為這個(gè)業(yè)務(wù)主題定制的,因此無(wú)法適用于多個(gè)主題,這類(lèi)分析方法就屬于高度定制的,因此基于這一原則,將非常規分析方法細分為統計學(xué)分析方法和自建模型類(lèi)。
常規分析方法
常規分析方法不對數據做抽象的處理,主要是直接呈現原始數據,多用于針對固定的指標、且周期性的分析主題。直接通過(guò)原始數據來(lái)呈現業(yè)務(wù)意義,主要是通過(guò)趨勢分析和占比分析來(lái)呈現,其分析方法對應同環(huán)比及帕累托分析這兩類(lèi)。同環(huán)比分析,其核心目的在于呈現本期與往期之間的差異,如銷(xiāo)售量增長(cháng)趨勢;而帕累托分析則是呈現單一維度中的各個(gè)要素占比的排名,比如各個(gè)地市中本期的銷(xiāo)售量增長(cháng)趨勢的排名,以及前百分之八十的增長(cháng)量都由哪幾個(gè)地市貢獻這樣的結論。常規分析方法已經(jīng)成為最為基礎的分析方法,在此也不詳細介紹了。
統計學(xué)分析方法
統計學(xué)分析方法能夠基于以往數據的規律來(lái)推導未來(lái)的趨勢,其中可以分為多種規律總結的方式。根據原理多分為以下幾大類(lèi),包括有目標結論的有指導學(xué)習算法,和沒(méi)有目標結論的無(wú)指導學(xué)習算法,以及回歸分析。
其中有指導的學(xué)習算法簡(jiǎn)單說(shuō)就是有歷史數據里邊已經(jīng)給出一個(gè)目標結論,然后分析當各個(gè)變量達到什么情況時(shí),就會(huì )產(chǎn)生目標結論。比如我們想判斷各項指標需要達到什么水平時(shí)我們才認定這個(gè)人患有心臟病的話(huà),就可以把大量的心臟病人的各項指標數據和沒(méi)有心臟病的正常人的各項指標數據都輸入到系統中,目標結論就是是否有心臟病,變量就是各項指標數據,系統根據這些數據算出一個(gè)函數,這個(gè)函數能夠恰當的描述各個(gè)指標的數據與最終這個(gè)是否是心臟病人之間的關(guān)系,也就是當各個(gè)指標達到什么臨界值時(shí),這個(gè)人就有心臟病的判斷,這樣以后再來(lái)病人,我們就可以根據各項指標的臨界值。這個(gè)案例中的函數就是算法本身了,這其中的算法邏輯有很多種,包括常見(jiàn)的貝葉斯分類(lèi)、決策樹(shù)、隨機森林樹(shù)以及支持向量機等,有興趣的朋友可以在網(wǎng)上看看各種算法的邏輯是怎么樣的。
另外無(wú)指導的學(xué)習算法因為沒(méi)有一個(gè)給定的目標結論,因此是將指標之中所有有類(lèi)似屬性的數據分別合并在一起,形成聚類(lèi)的結果。比如最經(jīng)典的啤酒與尿布分析,業(yè)務(wù)人員希望了解啤酒跟什么搭配在一起賣(mài)會(huì )更容易讓大家接受,因此需要把所有的購買(mǎi)數據都放進(jìn)來(lái),然后計算后,得出其他各個(gè)商品與啤酒的關(guān)聯(lián)程度或者是距離遠近,也就是同時(shí)購買(mǎi)了啤酒的人群中,都有購買(mǎi)哪些其他的商品,然后會(huì )輸出多種結果,比如尿布或者牛肉或者酸奶或者花生米等等,這每個(gè)商品都可以成為一個(gè)聚類(lèi)結果,由于沒(méi)有目標結論,因此這些聚類(lèi)結果都可以參考,之后就是貨品擺放人員嘗試各種聚類(lèi)結果來(lái)看效果提升程度。在這個(gè)案例中各個(gè)商品與啤酒的關(guān)聯(lián)程度或者是距離遠近就是算法本身了,這其中的邏輯也有很多中,包括Apriori等關(guān)聯(lián)規則、聚類(lèi)算法等。
另外還有一大類(lèi)是回歸分析,簡(jiǎn)單說(shuō)就是幾個(gè)自變量加減乘除后就能得出因變量來(lái),這樣就可以推算未來(lái)因變量會(huì )是多少了。比如我們想知道活動(dòng)覆蓋率、產(chǎn)品價(jià)格、客戶(hù)薪資水平、客戶(hù)活躍度等指標與購買(mǎi)量是否有關(guān)系,以及如果有關(guān)系,那么能不能給出一個(gè)等式來(lái),把這幾個(gè)指標的數據輸入進(jìn)去后,就能夠得到購買(mǎi)量,這個(gè)時(shí)候就需要回歸分析了,通過(guò)把這些指標以及購買(mǎi)量輸入系統,運算后即可分別得出,這些指標對購買(mǎi)量有沒(méi)有作用,以及如果有作用,那么各個(gè)指標應該如何計算才能得出購買(mǎi)量來(lái);貧w分析包括線(xiàn)性及非線(xiàn)性回歸分析等算法。
統計學(xué)分析方法還有很多,不過(guò)在今天多用上述幾大類(lèi)分析方法,另外在各個(gè)分析方法中,又有很多的不同算法,這部分也是需要分析人員去多多掌握的。
自建模型
自建模型是在分析方法中最為高階也是最具有挖掘價(jià)值的,在今天多用于金融領(lǐng)域,甚至業(yè)界專(zhuān)門(mén)為這個(gè)人群起了一個(gè)名字叫做寬客,這群人就是靠數學(xué)模型來(lái)分析金融市場(chǎng)。由于統計學(xué)分析方法所使用的算法也是具有局限性的,雖然統計學(xué)分析方法能夠通用在各種場(chǎng)景中,但是它存在不精準的問(wèn)題,在有指導和沒(méi)有指導的學(xué)習算法中,得出的結論多為含有多體現在結論不精準上,而在金融這種錙銖必較的領(lǐng)域中,這種算法顯然不能達到需求的精準度,因此數學(xué)家在這個(gè)領(lǐng)域中專(zhuān)門(mén)自建模型,來(lái)輸入可以獲得數據,得出投資建議來(lái)。在統計學(xué)分析方法中,回歸分析最接近于數學(xué)模型的,但公式的復雜程度有限,而數學(xué)模型是完全自由的,能夠將指標進(jìn)行任意的組合,確保最終結論的有效性。
六、數據分析主題選取
在數據分析方法的基礎上,進(jìn)一步是將分析方法應用在業(yè)務(wù)需求中,基于業(yè)務(wù)主題的分析可以涉及太多的領(lǐng)域,從客戶(hù)的參與活動(dòng)的轉化率,到客戶(hù)的留存時(shí)長(cháng)分析,再到內部的各環(huán)節銜接的及時(shí)率和準確度等等,每一種都有獨特的指標和維度的要求,以及分析方法的要求,以我個(gè)人的經(jīng)驗來(lái)看,主要分析主題都是圍繞著(zhù)營(yíng)銷(xiāo)、運營(yíng)、客戶(hù)這三大角度來(lái)開(kāi)展的。
營(yíng)銷(xiāo)/運營(yíng)分析
營(yíng)銷(xiāo)運營(yíng)分析多從過(guò)程及最終的成效上來(lái)進(jìn)行分析,包括營(yíng)銷(xiāo)活動(dòng)從發(fā)布到客戶(hù)產(chǎn)生購買(mǎi)的過(guò)程的分析,運營(yíng)從客戶(hù)開(kāi)始使用到停止使用為止的過(guò)程中的分析,前者更傾向于分析客戶(hù)行為的.變動(dòng)趨勢,以及不同類(lèi)型的客戶(hù)之間的行為差異,后者更傾向于分析在過(guò)程中服務(wù)的及時(shí)率和有效率,以及不同類(lèi)型的客戶(hù)之間對于服務(wù)需求的差異。
在針對這部分分析主題時(shí),多采用常規分析方法,通過(guò)同環(huán)比以及帕累托來(lái)呈現簡(jiǎn)單的變動(dòng)規律以及主要類(lèi)型的客戶(hù),但通過(guò)統計學(xué)分析方法,營(yíng)銷(xiāo)分析可以根據有指導的學(xué)習算法,得出營(yíng)銷(xiāo)成功與營(yíng)銷(xiāo)失敗之間的客戶(hù)特征的差異,而運營(yíng)分析則可以根據無(wú)指導的學(xué)習算法,得出哪些特征的客戶(hù)對哪些服務(wù)是有突出的需求的,另外營(yíng)銷(xiāo)和運營(yíng)分析都可以通過(guò)回歸分析來(lái)判斷,各項績(jì)效指標中,哪些指標是對購買(mǎi)以及滿(mǎn)意度有直接影響的。通過(guò)這些深入的挖掘,可以幫助指導營(yíng)銷(xiāo)及運營(yíng)人員更好的完成任務(wù)。
客戶(hù)分析
客戶(hù)分析除了與營(yíng)銷(xiāo)和運營(yíng)數據關(guān)聯(lián)分析時(shí)候使用,另外單獨對于客戶(hù)特征的分析也是有很大價(jià)值的。這一部分分析更多需要通過(guò)統計學(xué)分析方法中的有指導和無(wú)指導的學(xué)習算法,一方面針對高價(jià)值客戶(hù),通過(guò)有指導的學(xué)習算法,能夠看到哪些特征能夠影響到客戶(hù)的價(jià)值高低,從而為企業(yè)鎖定目標客戶(hù)提供指導;另一方面針對全體客戶(hù),通過(guò)無(wú)指導的學(xué)習算法,能夠看到客戶(hù)可以大概分為哪幾種群落,針對每個(gè)群落的客戶(hù)展開(kāi)焦點(diǎn)討論和情景觀(guān)察,從而挖掘不同群落客戶(hù)之間的需求差異,進(jìn)而為各個(gè)群落的客戶(hù)提供精準營(yíng)銷(xiāo)服務(wù)。
通過(guò)以上這些的操作,一個(gè)企業(yè)的數據分析或者說(shuō)數據挖掘工作的完整流程就呈現了出來(lái)?梢钥吹,無(wú)論是數據采集,還是分析方法,亦或是分析主題,在大數據和互聯(lián)網(wǎng)的支撐基礎上,在未來(lái)都將有大幅度的增加,數據分析人員將成為下一個(gè)階段的關(guān)鍵企業(yè)支撐人員,也即是在未來(lái),在各個(gè)領(lǐng)域中,都將產(chǎn)生大量的寬客,或者增長(cháng)黑客這樣的數據分析人員,來(lái)帶動(dòng)企業(yè)的發(fā)展。
【數據分析的方法】相關(guān)文章:
銷(xiāo)售數據的分析方法07-25
大數據的分析方法06-25
數據整理分析方法10-22
數據分析方法06-26
數據分析與辦公軟件:數據分析方法07-10
銷(xiāo)售數據分析的方法07-03
銷(xiāo)售數據分析方法07-03
常用數據分析方法06-22
配件庫存分析數據的方法07-10
實(shí)驗數據分析方法06-24