- 相關(guān)推薦
看透數據的真相的方法
在我們的工作、生活中,經(jīng)常能接觸到各種各樣的數據、調查結果,這些數據和結果都是正確的嗎?哪些數據有誤導性?哪些數據有限定條件?哪些數據不可以比較?本次分享告訴大家如何解讀數據,如何看透數據的真相!
【案例一】樣本的代表性
1936年《青年文摘》對美國總統大選的結果進(jìn)行預測,結果失敗,問(wèn)題出在調查方法上(調查對象是其讀者,調查方法為電話(huà)調查)。1936年有能力購買(mǎi)電話(huà)和訂閱雜志的人并不能代表所有的選民,至少在經(jīng)濟上,他們是一個(gè)極其特殊的群體,是有偏的,事實(shí)后來(lái)證實(shí)他們有許多人是共和黨的選民。但是如果調查選擇的樣本是代表性的,能代表全部選民那么調查就能得到準確的預測結果。
l 蓋洛普為什么預測美國大選的結果很準確?他們采用抽樣調查方法,在全國各州按比例選擇調查對象對總體有很強的代表性 。
【案例二】樣本量是否足夠?
我們來(lái)調查“喜歡大番茄的人多還是小番茄的人多”,究竟調查10個(gè)人、20個(gè)人還是100個(gè)人得出的結論是準確的呢?我們選擇多少個(gè)人作為調查對象,即需要多少個(gè)樣本量的決定因素有很多,總體的大小,總體內部的變異程度等等?傮w的大小很容易理解,調查全市市民和調查一個(gè)班級哪個(gè)需要的樣本量大呢?顯然是前者。至于總體內部的變異程度,舉個(gè)例子,如果總體只有100個(gè)人且這100個(gè)人差異不大,或許十幾個(gè)樣本就已經(jīng)足夠了,但是如果這100個(gè)人每個(gè)人差異性都很大呢?是不是要選取更多的樣本才能更真實(shí)反映100個(gè)人的情況呢?
舉一個(gè)用研的例子:對于整個(gè)淘寶網(wǎng)買(mǎi)家的調研,基本上我們要保障1500的樣本量,而對于某一類(lèi)目賣(mài)家的調研可能幾百就足夠了(比如機票等類(lèi)目賣(mài)家較少)。
PS:抽樣經(jīng)驗:1500以上的樣本量基本就能很好地代表總體,無(wú)論總體有多大。
【案例三】敏感、隱私話(huà)題
對于一些敏感、隱私的話(huà)題,被調查者對于你的提問(wèn)可能不會(huì )反映最真實(shí)的情況。如果采納這些不真實(shí)的信息,會(huì )使得調查結果不準確,比如圖中詢(xún)問(wèn)“您更喜歡閱讀哪本雜志?”,可能有很多人明明更喜歡閱讀《東周刊》卻選擇《鳳凰周刊》,原因在于擔心選擇前者可能會(huì )被大家認為是一個(gè)喜歡偷窺隱私的人。因此對于敏感隱私的話(huà)題,不必面對面調查,可以采用集體填答問(wèn)卷的形式或者電話(huà)調查的方式,并且說(shuō)明我們的保密原則,結果就會(huì )好很多。另外有些隱私話(huà)題不用直接詢(xún)問(wèn),可以從不同角度確認這些信息,例如詢(xún)問(wèn)“每月您的消費支出水平”,我們可以通過(guò)詢(xún)問(wèn)“購買(mǎi)哪些品牌的衣服”“經(jīng)常去哪兒就餐”等問(wèn)題從側面收集資料。
【案例四】平均數的陷阱
假設你是某個(gè)小型制造企業(yè)的3個(gè)合伙人之一,到了月底給企業(yè)的90個(gè)職工發(fā)了99000元,你和合伙人每人共獲得5500元的工資,最后還余下21000元作為利潤可供你們3個(gè)合伙人平分。你會(huì )選擇哪一種表述公示呢? 肯定是后者,因為顯得收入分配更公平,但其實(shí)每個(gè)人拿到的錢(qián)還是和前者一樣。因此需要特別注意這些平均數背后的真相。 l 國家統計局發(fā)布《2009年國民經(jīng)濟和社會(huì )發(fā)展統計公報》,其中稱(chēng)“70個(gè)大中城市房屋銷(xiāo)售價(jià)格上漲1.5%”,數字公布之后,引起了代表委員和社會(huì )輿論的廣泛質(zhì)疑。從數字看起來(lái)房?jì)r(jià)上漲很少,但為何與我們的感受不一致,主要原因還是在于平均數,這一數字對房屋種類(lèi)、地區、地段、樓層、朝向、時(shí)點(diǎn)等因素而差異較大的樣本進(jìn)行綜合平均統計,過(guò)度消除了價(jià)格變化。
l 統計局公布1月CPI數字,因為春節假期央行再度加息,市場(chǎng)曾預期1月CPI必將再創(chuàng )新高,甚至有望接近6%數字,可實(shí)際數字4.9%卻讓人頗為意外。原因就是統計局CPI統計的新權重:居住類(lèi)、醫療保健類(lèi)、娛樂(lè )教育文化類(lèi)價(jià)格權重上升,食品類(lèi)權重下降。而食品類(lèi)價(jià)格卻是百姓感受最明顯的一個(gè)指標,因此平均時(shí)權重差異也使得我們感受與數字之間產(chǎn)生差異。
【案例五】一樣的數據,不一樣的圖形
為了讓沒(méi)有直接接觸數據的人也能直觀(guān)地感受到其中的一些信息,人們發(fā)明了各種各樣漂亮的統計圖表。但是就是“客觀(guān)”的圖表里面也存在著(zhù)各種各樣的陷阱。在制作統計圖表時(shí),一個(gè)常用的欺騙手法便是改變統計圖形的坐標尺度,從而改變了整個(gè)圖形的增長(cháng)趨勢或是陡峭程度。 天平兩側的圖是用同一組數字繪制的,只是改變了縱坐標的刻度范圍,卻使得兩幅圖看起來(lái)具有完全不同的增長(cháng)趨勢。 此圖反映了某年9月27日某時(shí)的黃金價(jià)格走勢。上面兩幅圖描述的是相同時(shí)間段的黃金價(jià)格走勢,顯然,左邊的金價(jià)急升更容易讓人產(chǎn)生激動(dòng)的心情。即使標出了橫縱軸的刻度,這兩幅圖給普通人留下的第一印象也大不一樣。
【案例六】 結論的使用范圍、限定條件
對于這一則廣告,從廣告詞來(lái)看,此感冒藥效果很好,但是在這里我們需要問(wèn)兩個(gè)問(wèn)題:在人的喉嚨里會(huì )不會(huì )發(fā)揮作用?這些細菌是感冒細菌嗎?顯然如果廣告詞沒(méi)有標明結論的限定條件,我們并不能就此認為此感冒藥到底有何效果。因此我們特別要關(guān)注有些結論的限定條件,并不是所有條件下結論都成立。 正是由于結論受到很多條件的限制,我們在調查中如果要得到較為穩定的結論,則需要探究一些較為穩定的現象。用戶(hù)的行為經(jīng)常在發(fā)生變化,如果我們僅僅是關(guān)注用戶(hù)的行為,可能我們要不停地去做重復的調查,但是除了行為外,其實(shí)很多用戶(hù)需求層面的東西是比較穩定的,我們的調研也會(huì )重點(diǎn)關(guān)注這些方面,行為會(huì )變但是需求層面的東西會(huì )比較穩定,因此我們不會(huì )僅僅設計一些很操作層面的問(wèn)題,拿酒店頻道舉例,我們不會(huì )只提問(wèn)“您為什么在查詢(xún)之后預訂我們的酒店”,我們還會(huì )詢(xún)問(wèn)“您經(jīng)常去哪些渠道預訂酒店”“您經(jīng)常住哪一類(lèi)型的酒店”等等,從各個(gè)方面去看用戶(hù)最內在的需求。
【案例七】口徑不同的數字不可比較
如果告訴圖中所示信息,你肯定會(huì )認為美國海軍的死亡率低于紐約市民。但是大家想一下:美國海軍與紐約市民的年齡結構是一致的嗎?海軍都是青壯年而紐約市民中很一部分是死亡率極高的老年人,這兩個(gè)人群的死亡率可以比較嗎?顯然是不行的。國家統計局公布2009年上半年,中國城鎮單位在崗職工平均工資為14638元,與上年同期相比增加了1674元,增長(cháng)12.9%。有網(wǎng)民稱(chēng),統計數據與自己的收入不符。為何數字公布與網(wǎng)民感受不符呢?關(guān)鍵在于納入國家統計局口徑的不是所有勞動(dòng)人口,而是城鎮國有單位、集體單位和股份合作、聯(lián)營(yíng)、有限責任公司、股份有限公司、外資和港澳臺商投資單位的員工,不包括私營(yíng)單位、個(gè)體工商戶(hù)和靈活就業(yè)人員,而往往低收入人群廣泛存在于漏掉那部分人群中。因此在看到一個(gè)統計結論時(shí)一定要仔細辨清其統計口徑。
【案例八】真的是因果關(guān)系嗎?
如果給出全班所有成員的成績(jì),又給出是否抽煙的情況,你發(fā)現抽煙的學(xué)生成績(jì)都比較差,你是否就能得出“抽煙導致低分”的結論呢?抽煙與低分之間可能還有性格、家庭等各方面的因素。兩個(gè)變量一起變動(dòng)只能代表他們相關(guān)但不能代表他們是因果關(guān)系。
此圖給出了兩種很容易被我們誤解為A與B之間有因果關(guān)系的情況,雖然A與B同時(shí)變動(dòng),但是他們的變動(dòng)都是由Z引起的,而不是本身的因果關(guān)系,這樣的情況我們需要特別注意。 總結以上八個(gè)案例,特別提示大家注意以下問(wèn)題: 根據抽樣得出的結論一定要采用具有代表性的樣本 在樣本量足夠時(shí)誤差才會(huì )較小,結論才會(huì )可靠 對敏感隱私問(wèn)題需要多方驗證 看到平均數時(shí)首先問(wèn)問(wèn)是平均了什么? 同一種數據的不同展現方式帶來(lái)的陷阱 大部分結論都有其限定條件和適用范圍 口徑不一致的數據不能拿來(lái)比較 兩個(gè)數字同時(shí)變化并不能用于說(shuō)明因果關(guān)系如果在看到很多數據以及結論的時(shí)候想到了以上八個(gè)問(wèn)題,并且在心中回答出以下四個(gè)問(wèn)題:“研究方法科學(xué)嗎?”、“表達方式有誤嗎?”、“這些數字可以比較嗎?”、“結論有限定條件嗎?”,那么恭喜大家練成了火眼金睛,不用害怕掉入任何數字的陷阱了!
[看透數據的真相的方法]相關(guān)文章:
【看透數據的真相的方法】相關(guān)文章:
銷(xiāo)售數據的分析方法07-25
配件庫存分析數據的方法07-10
銷(xiāo)售數據分析的方法07-03
銷(xiāo)售數據分析方法07-03
多維數據分析方法04-07
傳統數據分析方法09-20
數據分析常用方法07-26
數據分析與辦公軟件:數據分析方法07-10
數據分析技巧和方法07-10