- 相關(guān)推薦
如何用數據分析來(lái)預測奧斯卡最佳影片獎
一年一度的奧斯卡頒獎?dòng)忠_(kāi)始了。 2005年, 李安導演憑借《斷背山》獲得最佳導演獎,可惜與最佳影片獎失之交臂。 這次, 李安導演又一次攜《少年派的奇幻漂流》再次沖擊奧斯卡。
在一周前的金球獎, 《逃離德黑蘭》爆冷擊敗了《林肯》和《少年派的奇幻漂流》獲得最佳影片獎。 這讓很多人都覺(jué)得不可思議。 雖然藝術(shù)評委的思維模式往往與大眾相左(參考閱讀:社會(huì )化輿情分析,你信奧斯卡還是IBM), 但實(shí)際上數據分析仍然有可能為我們“劇透”今年的奧斯卡最佳影片獎得主。 好吧, 以下本人就試著(zhù)用R分析一下吧。
奧斯卡的原始數據可以到www.appdata.com去下載這個(gè)文件, 這個(gè)文件包括了從1927年到2010年奧斯卡提名和獲獎的所有數據。
有了這個(gè)原始數據集, 我們就可以開(kāi)始我們的數據分析項目了。
首先確定項目的目標: 我希望能夠分析從最佳影片提名中預測最后產(chǎn)生的獲獎?dòng)捌?首先要做得是確定預測樣本的特征值, 觀(guān)察了一下原始數據集, 我們可以把一些肯定與最佳影片無(wú)關(guān)的獎項去掉(比如最佳動(dòng)畫(huà)長(cháng)片, 最佳短片, 最佳外語(yǔ)片等)。 最后 我選擇了下面這些獎項:
最佳男主角, 最佳男配角, 最佳女主角, 最佳女配角, 最佳藝術(shù)指導, 最佳攝影, 最佳服裝設計, 最佳導演, 最佳影片剪輯, 最佳化妝, 最佳原創(chuàng )音樂(lè ), 最佳原創(chuàng )歌曲, 最佳混音, 最佳音效, 最佳視覺(jué)效果和最佳劇本。
其中, 奧斯卡的最佳劇本其實(shí)分最佳原創(chuàng )劇本和最佳改編劇本, 但是原始數據把二者合并了。 (這也是數據分析中常常會(huì )碰到的情況。 不過(guò)對我們來(lái)說(shuō)影響不大)。
然后, 就是根據這些特征值, 對數據集進(jìn)行整理。 這部分工作, 其實(shí)在一般的數據分析項目里, 大約占到60%的時(shí)間。 確實(shí)沒(méi)有搞模型什么的有意思, 不過(guò)很多數據分析項目實(shí)施的好壞和數據整理其實(shí)有很大的關(guān)系。
我在這里主要是把特征值進(jìn)行擴展, 把獲得提名和獲得最后獎項做為兩個(gè)特征來(lái)看, 對每個(gè)獎項, 如果獲得提名, 則獲得提名定值為1, 否則為0。 如果該獎項沒(méi)有獲得提名, 則獲得最后獎項的值為0 , 如果獲得提名并得獎, 則為1。 同時(shí)還需要把歷年的“最佳影片”的提名和獲獎數據從原始數據集中取出來(lái)。 這些工作可以用R語(yǔ)言來(lái)完成,見(jiàn)附件中的代碼。 總共最后整理成了一個(gè)共有 485個(gè)觀(guān)察樣本, 每個(gè)樣本有32個(gè)特征值的數據集。 接著(zhù), 把這485個(gè)樣本進(jìn)行分組, 我按照80:20原則, 把80%的樣本作為訓練樣本組, 20%的樣本作為驗證預測模型的驗證組。
接下來(lái)就是進(jìn)行預測模型的選擇。 由于我們是個(gè)分類(lèi)問(wèn)題, 所以可以選擇分類(lèi)模型。 這個(gè)數據集相對較小, 因此不同模型的差別應該不大。 這里我先選擇用回歸樹(shù)來(lái)做分析。 用R里面的回歸樹(shù)的包, 可以很容易的進(jìn)行決策樹(shù)的構建。 最后的決策樹(shù)模型的ROC是0.877. 下圖是決策樹(shù)的示意。
決策樹(shù)的一個(gè)好處就是比較直觀(guān), 這個(gè)決策樹(shù)簡(jiǎn)單來(lái)說(shuō), 就是這樣進(jìn)行預測判斷的, 首先是判斷是否獲得“最佳導演獎”, 如果獲得最佳導演, 則判斷是否有“最佳影片剪輯提名”。 如果沒(méi)有, 則獲獎概率為38%, 如果有最佳影片剪輯提名, 看是否獲得“最佳劇本”獎, 如果沒(méi)有, 則得獎概率為63%, 如果獲得了, 則繼續看是否獲得“最佳混音”提名。 如此類(lèi)推。
如此看來(lái), 獲得奧斯卡最佳影片獎的關(guān)鍵是獲得奧斯卡最佳導演獎。 如果沒(méi)有導演獎, 那么獲最佳影片獎的概率頂多就是37%。
好, 我們來(lái)看看《少年派》, 少年派獲得了導演獎的提名, 而如果獲得了導演獎, 那么由于它本身已經(jīng)是“最佳影片剪輯”提名, 所以即便不能拿到“最佳劇本”獎, 獲獎概率也能達到63%, 而如果再拿到“最佳劇本獎”, 由于已經(jīng)獲得“最佳混音”提名, 所以幾乎就能夠鐵定獲獎了。
而對《林肯》來(lái)說(shuō)也是這樣的, 因為林肯也獲得了最佳導演, 最佳剪輯和最佳劇本的提名, 所以, 《少年派》和《林肯》之間的對決主要是在最佳導演的爭奪上了。 至于《逃離德黑蘭》, 由于沒(méi)有獲得最佳導演獎的提名, 所以, 它的獲獎概率最多可以到37%。 當然, 這個(gè)概率也比5選1的20%的概率要高。
為了看一看各個(gè)特征值對于最終獲獎的影響, 我們也可以用邏輯回歸的模型看一下, 下面是邏輯回歸的出來(lái)的各特征值的權重, (ROC = 0.873,和決策樹(shù)差不多)。
這里面可以看到, 最佳導演獲獎依然是影響最大的因素, 其次是最佳化妝獎。 有意思的是, 有些提名或者獲獎反而會(huì )降低得“最佳影片獎”的概率。 比如說(shuō)“最佳音效獎得獎”或者“最佳視覺(jué)效果提名”。 也可能這些是對“最佳影片”的落榜影片的“安慰獎”。
“數據可視化是科學(xué), 也是藝術(shù)”,指出數據可視化是科學(xué)藝術(shù)和設計的結合,而我們現在做的,則是用數據分析預測藝術(shù)市場(chǎng)。 在我們觀(guān)看奧斯卡頒獎典禮的時(shí)候, 因為最佳影片是最后一個(gè)頒獎的, 所以大家可以把決策樹(shù)拿出來(lái), 對照著(zhù)前面頒獎的情況進(jìn)行觀(guān)看, 是不是會(huì )更有意思呢。
對數據分析愛(ài)好者來(lái)說(shuō), 我的R代碼和整理過(guò)的數據集見(jiàn)附件(請登錄下載), 讀者也可以自己研究一下, 也許還能發(fā)現更好的模型。 或者還可以把金球獎的數據包括進(jìn)來(lái)。 看看《逃離德黑蘭》獲得金球獎對它獲得奧斯卡獎?dòng)卸啻笥绊憽?/p>
Via:IT經(jīng)理網(wǎng)
最佳導演獲獎 | 3.826687 |
最佳化妝獲獎 | 3.036705 |
最佳音效提名 | 1.908622 |
最佳男主角獲獎 | 1.641444 |
最佳服裝獲獎 | 1.611889 |
最佳劇本獲獎 | 1.27472 |
最佳影片剪輯提名 | 0.838309 |
最佳原創(chuàng )歌曲提名 | 0.763278 |
最佳男配角提名 | 0.644326 |
最佳藝術(shù)指導獲獎 | 0.558941 |
最佳影片剪輯獲獎 | 0.471427 |
最佳女配角獲獎 | 0.454053 |
最佳服裝提名 | 0.383574 |
最佳混音獲獎 | 0.343589 |
最佳混音提名 | 0.295055 |
最佳化妝提名 | 0.198427 |
最佳原創(chuàng )音樂(lè )提名 | 0.188186 |
最佳藝術(shù)指導提名 | 0.171621 |
最佳女主角獲獎 | 0.108964 |
最佳導演提名 | 0.094558 |
最佳女配角提名 | 0.083959 |
最佳視覺(jué)效果獲獎 | -0.02597 |
最佳男配角獲獎 | -0.19262 |
最佳攝影獲獎 | -0.32458 |
最佳原創(chuàng )音樂(lè )獲獎 | -0.37605 |
最佳女主角提名 | -0.39106 |
最佳男主角提名 | -0.59084 |
最佳攝影提名 | -0.71286 |
最佳原創(chuàng )歌曲獲獎 | -0.75752 |
最佳劇本提名 | -0.78589 |
最佳視覺(jué)效果提名 | -0.86435 |
最佳音效獲獎 | -2.07864 |
[如何用數據分析來(lái)預測奧斯卡最佳影片獎]相關(guān)文章:
【如何用數據分析來(lái)預測奧斯卡最佳影片獎】相關(guān)文章:
數據分析報告07-28
大數據分析07-20
銷(xiāo)售數據的分析方法07-25
大數據分析07-25
多維數據分析方法04-07
數據分析工作職責07-28
數據分析常用方法07-26
數據分析主管的職責01-13
數據分析報告【推薦】03-07
數據分析簡(jiǎn)歷模板02-17