貝葉斯分類(lèi)器

時(shí)間:2022-07-10 20:14:39 其他 我要投稿
  • 相關(guān)推薦

貝葉斯分類(lèi)器

貝葉斯分類(lèi)器的分類(lèi)原理是通過(guò)某對象的先驗概率,利用貝葉斯公式計算出其后驗概率,即該對象屬于某一類(lèi)的概率,選擇具有最大后驗概率的類(lèi)作為該對象所屬的類(lèi)。

貝葉斯定理公式:P(A|B)=P(B|A)*P(A)/P(B)

貝葉斯網(wǎng)絡(luò )是一個(gè)帶有概率注釋的有向無(wú)環(huán)圖,圖中的每一個(gè)結點(diǎn)均表示一個(gè)隨機變量,圖中兩結點(diǎn)間若存在著(zhù)一條弧,則表示這兩結點(diǎn)相對應的隨機變量是概率相依的,反之則說(shuō)明這兩個(gè)隨機變量是條件獨立的。網(wǎng)絡(luò )中任意一個(gè)結點(diǎn)X 均有一個(gè)相應的條件概率表(Conditional Probability Table,CPT),用以表示結點(diǎn)X 在其父結點(diǎn)取各可能值時(shí)的條件概率。若結點(diǎn)X 無(wú)父結點(diǎn),則X 的CPT 為其先驗概率分布。貝葉斯網(wǎng)絡(luò )的結構及各結點(diǎn)的CPT 定義了網(wǎng)絡(luò )中各變量的概率分布。

貝葉斯分類(lèi)器是用于分類(lèi)的貝葉斯網(wǎng)絡(luò )。該網(wǎng)絡(luò )中應包含類(lèi)結點(diǎn)C,其中C 的取值來(lái)自于類(lèi)集合( c1 , c2 , ... , cm),還包含一組結點(diǎn)X = ( X1 , X2 , ... , Xn),表示用于分類(lèi)的特征。對于貝葉斯網(wǎng)絡(luò )分類(lèi)器,若某一待分類(lèi)的樣本D,其分類(lèi)特征值為x = ( x1 , x2 , ... , x n) ,則樣本D 屬于類(lèi)別ci 的概率P( C = ci | X1 = x1 , X2 = x 2 , ... , Xn = x n) ,( i = 1 ,2 , ... , m) 應滿(mǎn)足下式:

P( C = ci | X = x) = Max{ P( C = c1 | X = x) , P( C = c2 | X = x ) , ... , P( C = cm | X = x ) }

而由貝葉斯公式:

P( C = ci | X = x) = P( X = x | C = ci) * P( C = ci) / P( X = x)

其中,P( C = ci) 可由領(lǐng)域專(zhuān)家的經(jīng)驗得到,而P( X = x | C = ci) 和P( X = x) 的計算則較困難。

應用貝葉斯網(wǎng)絡(luò )分類(lèi)器進(jìn)行分類(lèi)主要分成兩階段。第一階段是貝葉斯網(wǎng)絡(luò )分類(lèi)器的學(xué)習,即從樣本數據中構造分類(lèi)器,包括結構學(xué)習和CPT 學(xué)習;第二階段是貝葉斯網(wǎng)絡(luò )分類(lèi)器的推理,即計算類(lèi)結點(diǎn)的條件概率,對分類(lèi)數據進(jìn)行分類(lèi)。這兩個(gè)階段的時(shí)間復雜性均取決于特征值間的依賴(lài)程度,甚至可以是NP 完全問(wèn)題,因而在實(shí)際應用中,往往需要對貝葉斯網(wǎng)絡(luò )分類(lèi)器進(jìn)行簡(jiǎn)化。根據對特征值間不同關(guān)聯(lián)程度的假設,可以得出各種貝葉斯分類(lèi)器,Naive Bayes、TAN、BAN、GBN 就是其中較典型、研究較深入的貝葉斯分類(lèi)器。

在具有模式的完整統計知識條件下,按照貝葉斯決策理論進(jìn)行設計的一種最優(yōu)分類(lèi)器。分類(lèi)器是對每一個(gè)輸入模式賦予一個(gè)類(lèi)別名稱(chēng)的軟件或硬件裝置,而貝葉斯分類(lèi)器是各種分類(lèi)器中分類(lèi)錯誤概率最小或者在預先給定代價(jià)的情況下平均風(fēng)險最小的分類(lèi)器。它的設計方法是一種最基本的統計分類(lèi)方法。

/>

/> 最小錯誤概率貝葉斯分類(lèi)器

/> 把代表模式的特征向量x分到c個(gè)類(lèi)別(ω1,ω2,...,ωc)中某一類(lèi)的最基本方法

/> 貝葉斯分類(lèi)器

/>

/> 貝葉斯分類(lèi)器

/> 是計算在 x的條件下,該模式屬于各類(lèi)的概率,用符號P(ω1|x),P(ω2|x),...,P(ωc|x)表示。比較這些條件概率,最大數值所對應的類(lèi)別ωi就是該模式所屬的類(lèi)。例如表示某個(gè)待查細胞的特征向量 x屬于正常細胞類(lèi)的概率是0.2,屬于癌變細胞類(lèi)的概率是0.8,就把它歸類(lèi)為癌變細胞。上述定義的條件概率也稱(chēng)為后驗概率,在特征向量為一維的情況下,一般有圖中的變化關(guān)系。當 x=x*時(shí),P(ω1|x)=P(ω2|x)對于 x>x*的區域,由于P(ω2|x)>P(ω1|x)因此x屬ω2類(lèi),對于x

P(ω2|x),x屬ω1類(lèi),x*就相當于區域的分界點(diǎn)。圖中的陰影面積就反映了這種方法的錯誤分類(lèi)概率,對于以任何其他的 x值作為區域分界點(diǎn)的分類(lèi)方法都對應一個(gè)更大的陰影面積,因此貝葉斯分類(lèi)器是一種最小錯誤概率的分類(lèi)器

/> 貝葉斯分類(lèi)器

/>

/> 一般情況下,不能直接得到后驗概率而是要通過(guò)貝葉斯公式

/> 公式

/>

/> 公式

/> 進(jìn)行計算。式中的P(x│ωi)為在模式屬于ωi類(lèi)的條件下出現x的概率密度,稱(chēng)為x的類(lèi)條件概率密度;P(ωi)為在所研究的識別問(wèn)題中出現ωi類(lèi)的概率,又稱(chēng)先驗概率;P(x)是特征向量x的概率密度。分類(lèi)器在比較后驗概率時(shí),對于確定的輸入x,P(x)是常數,因此在實(shí)際應用中,通常不是直接用后驗概率作為分類(lèi)器的判決函數gi(x)(見(jiàn)線(xiàn)性判別函數)而采用下面兩種形式:

/> 對所有的c個(gè)類(lèi)計算gi(x)(i=1,2,...,c)。與gi(x)中最大值相對應的類(lèi)別就是x的所屬類(lèi)別。

/>

/> 最小風(fēng)險貝葉斯分類(lèi)器:由于客觀(guān)事物的復雜性,分類(lèi)器作出各種判決時(shí)的風(fēng)險是不一樣的。例如將癌細胞誤判為正常細胞的風(fēng)險就比將正常細胞誤判為癌細胞的風(fēng)險大。因此,在貝葉斯分類(lèi)器中引入了風(fēng)險的概念。在實(shí)際應用中根據具體情況決定各種風(fēng)險的大小,通常用一組系數Cij來(lái)表示。Cij表示分類(lèi)器將被識別樣本分類(lèi)為ωi,而該樣本的真正類(lèi)別為ωj時(shí)的風(fēng)險。設計最小風(fēng)險分類(lèi)器的基本思想是用后驗概率計算將 x分類(lèi)為ωi的條件風(fēng)險

/> 貝葉斯分類(lèi)器

/>

/> 貝葉斯分類(lèi)器

/> 比較各Ri(x)的大小,與最小值對應的類(lèi)別是分類(lèi)的結果。評價(jià)這種分類(lèi)器的標準是平均風(fēng)險,它的平均風(fēng)險最小。在實(shí)際應用時(shí),后驗概率是難以獲得的,根據模式類(lèi)別的多少和Cij的取值方式,可設計出各種分類(lèi)器,例如模式為兩類(lèi)時(shí),判別函數為

/> 判別函數

/>

/> 判別函數

/> 如果選擇C11和C22為零,C12和C21為1,它就是兩類(lèi)最小錯誤概率分類(lèi)器。實(shí)際上,最小錯誤概率分類(lèi)器是最小風(fēng)險分類(lèi)器的一種特殊情況。

/> 設計貝葉斯分類(lèi)器的關(guān)鍵是要知道樣本特征 x的各種概率密度函數。條件概率密度函數為多元正態(tài)分布是研究得最多的分布。這是由于它的數學(xué)表達式易于分析,在實(shí)際應用中也是一種常見(jiàn)的分布形式。經(jīng)常使用參數方法來(lái)設計正態(tài)分布的判別函數。

/>

[貝葉斯分類(lèi)器]相關(guān)文章:

1.貝葉斯分類(lèi)器

2.生物信息學(xué)

【貝葉斯分類(lèi)器】相關(guān)文章:

99久久精品免费看国产一区二区三区|baoyu135国产精品t|40分钟97精品国产最大网站|久久综合丝袜日本网|欧美videosdesexo肥婆