聚類(lèi)分析的一些評價(jià)手段

時(shí)間:2022-07-10 20:15:00 其他 我要投稿
  • 相關(guān)推薦

聚類(lèi)分析的一些評價(jià)手段

什么是聚類(lèi)

聚類(lèi)簡(jiǎn)單的說(shuō)就是要把一個(gè)文檔集合根據文檔的相似性把文檔分成若干類(lèi),但是究竟分成多少類(lèi),這個(gè)要取決于文檔集合里文檔自身的性質(zhì)。下面這個(gè)圖就是一個(gè)簡(jiǎn)單的例子,我們可以把不同的文檔聚合為3類(lèi)。另外聚類(lèi)是典型的無(wú)指導學(xué)習,所謂無(wú)指導學(xué)習是指不需要有人干預,無(wú)須人為文檔進(jìn)行標注。

聚類(lèi)的評價(jià)

既然聚類(lèi)是把一個(gè)包含若干文檔的文檔集合分成若干類(lèi),像上圖如果聚類(lèi)算法應該把文檔集合分成3類(lèi),而不是2類(lèi)或者5類(lèi),這就設計到一個(gè)如何評價(jià)聚類(lèi)結果的問(wèn)題。下面介紹幾種聚類(lèi)算法的評價(jià)指標,看下圖

如圖認為x代表一類(lèi)文檔,o代表一類(lèi)文檔,方框代表一類(lèi)文檔,完美的聚類(lèi)顯然是應該把各種不同的圖形放入一類(lèi),事實(shí)上我們很難找到完美的聚類(lèi)方法,各種方法在實(shí)際中難免有偏差,所以我們才需要對聚類(lèi)算法進(jìn)行評價(jià)看我們采用的方法是不是好的算法。

評價(jià)方法一:purity

purity方法是極為簡(jiǎn)單的一種聚類(lèi)評價(jià)方法,只需計算正確聚類(lèi)的文檔數占總文檔數的比例:

其中Ω = {ω1,ω2, . . . ,ωK}是聚類(lèi)的集合ωK表示第k個(gè)聚類(lèi)的集合。C = {c1, c2, . . . , cJ}是文檔集合,cJ表示第J個(gè)文檔。N表示文檔總數。

如上圖的purity = ( 3+ 4 + 5) / 17 = 0.71

其中第一類(lèi)正確的有5個(gè),第二個(gè)4個(gè),第三個(gè)3個(gè),總文檔數17。

purity方法的優(yōu)勢是方便計算,值在0~1之間,完全錯誤的聚類(lèi)方法值為0,完全正確的方法值為1。同時(shí),purity方法的缺點(diǎn)也很明顯它無(wú)法對退化的聚類(lèi)方法給出正確的評價(jià),設想如果聚類(lèi)算法把每篇文檔單獨聚成一類(lèi),那么算法認為所有文檔都被正確分類(lèi),那么purity值為1!而這顯然不是想要的結果。

評價(jià)方法二:RI

實(shí)際上這是一種用排列組合原理來(lái)對聚類(lèi)進(jìn)行評價(jià)的手段,公式如下:

其中TP是指被聚在一類(lèi)的兩個(gè)文檔被正確分類(lèi)了,TN是只不應該被聚在一類(lèi)的兩個(gè)文檔被正確分開(kāi)了,FP只不應該放在一類(lèi)的文檔被錯誤的放在了一類(lèi),FN只不應該分開(kāi)的文檔被錯誤的分開(kāi)了。對上圖

TP+FP = C(2,6) + C(2,6) + C(2,5) = 15 + 15 + 10 = 40 其中C(n,m)是指在m中任選n個(gè)的組合數。

TP = C(2,5) + C(2,4) + C(2,3) + C(2,2) = 20

FP = 40 - 20 = 20

相似的方法可以計算出TN = 72 FN = 24

所以RI = ( 20 + 72) / ( 20 + 20 + 72 +24) = 0.68

評價(jià)方法三:F值

這是基于上述RI方法衍生出的一個(gè)方法

RI方法有個(gè)特點(diǎn)就是把準確率和召回率看得同等重要,事實(shí)上有時(shí)候我們可能需要某一特性更多一點(diǎn),這時(shí)候就適合F值方法


【聚類(lèi)分析的一些評價(jià)手段】相關(guān)文章:

網(wǎng)絡(luò )營(yíng)銷(xiāo)的手段和方法03-24

一些開(kāi)啟寒假的文案12-01

一些太空知識點(diǎn)的總結03-23

高調做事也需要一些技巧03-18

《多一些寬容》教案設計03-30

收集一些無(wú)風(fēng)格的小眾文案01-16

關(guān)于“雙減”政策的一些感想10-11

正式一些的拜年祝福語(yǔ)01-20

《水能溶解一些物質(zhì)》教學(xué)設計05-08

評價(jià)表自我評價(jià)01-22

99久久精品免费看国产一区二区三区|baoyu135国产精品t|40分钟97精品国产最大网站|久久综合丝袜日本网|欧美videosdesexo肥婆