人工智能方面的論文

時(shí)間:2022-07-01 13:35:20 人工智能 我要投稿
  • 相關(guān)推薦

人工智能方面的論文

  大家對人工智能的認識是什么呢?現在人工智能時(shí)代已經(jīng)來(lái)臨了。以下是小編精心準備的人工智能方面的論文,大家可以參考以下內容哦!

人工智能方面的論文

  摘 要:去年3月,AlphaGo以4:1的絕對優(yōu)勢戰勝了世界圍棋冠軍李世石,排名世界第二。去年年底到今年年初,短短一周內,AlphaGo的升級版Master連勝60場(chǎng),在圍棋界立于不敗之地。本文圍繞圍棋人工智能AlphaGo系統,主要對圍棋人工智能的基本概念、工作原理以及圍棋人工智能發(fā)展意義進(jìn)行了深刻分析。

  關(guān)鍵詞:AlphaGo;人工智能;圍棋;未來(lái)展望

  1 圍棋與人工智能

  圍棋作為中國傳統四大藝術(shù)之一,擁有著(zhù)幾千年的悠久歷史。圍棋棋盤(pán)由19條橫線(xiàn)和19條豎線(xiàn)組成,共有19*19=361個(gè)交叉點(diǎn),圍棋子分為黑白兩種顏色,對弈雙方各執一色,輪流將一枚棋子下在縱橫交叉點(diǎn)上,終局時(shí),棋子圍上交叉點(diǎn)數目最多的一方獲勝。圍棋棋盤(pán)上每一個(gè)縱橫交叉點(diǎn)都有三種可能性:落黑子、落白子、留空,所以圍棋擁有高達3^361種局面;圍棋的每個(gè)回合有250種可能,一盤(pán)棋可長(cháng)達150回合,所以圍棋的計算復雜度為250^150,約為10^170,然而全宇宙可觀(guān)測的原子數量只有10^80,這足以體現圍棋博弈的復雜性和多變性。

  人工智能(Artificial Intelligence,AI)主要研究人類(lèi)思維、行動(dòng)中那些尚未算法化的功能行為,使機器像人的大腦一樣思考、行動(dòng)。長(cháng)期以來(lái),圍棋作為一種智力博弈游戲,以其變化莫測的博弈局面,高度體現了人類(lèi)的智慧,為人工智能研究提供了一個(gè)很好的測試平臺,圍棋人工智能也是人工智能領(lǐng)域的一個(gè)重要挑戰。

  傳統的計算機下棋程序的基本原理,是通過(guò)有限步數的搜索樹(shù),即采用數學(xué)和邏輯推理方法,把每一種可能的路徑都走一遍,從中選舉出最優(yōu)路徑,使得棋局勝算最大。這種下棋思路是充分發(fā)揮計算機運算速度快、運算量大等優(yōu)勢的“暴力搜索法”,是人類(lèi)在對弈規定的時(shí)間限制內無(wú)法做到的。但是由于圍棋局面數量太大,這樣的運算量對于計算機來(lái)講也是相當之大,目前的計算機硬件無(wú)法在對弈規定的時(shí)間內,使用計算機占絕對優(yōu)勢的“暴力搜索法”完成圍棋所有局面的擇優(yōu),所以這樣的下棋思路不適用于圍棋對弈。

  搜索量巨大的問(wèn)題一直困擾著(zhù)圍棋人工智能,使其發(fā)展停滯不前,直到2006年, 蒙特卡羅樹(shù)搜索的應用出現,才使得圍棋人工智能進(jìn)入了嶄新的階段,現代圍棋人工智能的主要算法是基于蒙特卡洛樹(shù)的優(yōu)化搜索。

  2 圍棋人工智能基本原理

  目前圍棋人工智能最杰出的代表,是由谷歌旗下人工智能公司DeepMind創(chuàng )造的AlphaGo圍棋人工智能系統。它在與人類(lèi)頂級圍棋棋手的對弈中充分發(fā)揮了其搜索和計算的優(yōu)勢,幾乎在圍棋界立于不敗之地。

  AlphaGo系統的基本原理是將深度強化學(xué)習方法與蒙特卡洛樹(shù)搜索結合,使用有監督學(xué)習策略網(wǎng)絡(luò )和價(jià)值網(wǎng)絡(luò ),極大減少了搜索空間,即在搜索過(guò)程中的計算量,提高了對棋局估計的準確度。

  2.1 深度強化學(xué)習方法

  深度學(xué)習源于人工神經(jīng)網(wǎng)絡(luò )的研究,人類(lèi)大量的視覺(jué)聽(tīng)覺(jué)信號的感知處理都是下意識的,是基于大腦皮層神經(jīng)網(wǎng)絡(luò )的學(xué)習方法,通過(guò)模擬大腦皮層推斷分析數據的復雜層狀網(wǎng)絡(luò )結構,使用包含復雜結構或由多重非線(xiàn)性變換構成的多個(gè)處理層對數據進(jìn)行高層抽象,其過(guò)程類(lèi)似于人們識別物體標注圖片,F如今,應用最廣泛的深度學(xué)習模型包括:卷積神經(jīng)網(wǎng)絡(luò )、深度置信網(wǎng)絡(luò )、堆棧自編碼網(wǎng)絡(luò )和遞歸神經(jīng)網(wǎng)絡(luò )等。

  強化學(xué)習源于動(dòng)物學(xué)習、參數擾動(dòng)自適應控制等理論,通過(guò)模擬生物對環(huán)境以試錯的方式進(jìn)行交互達到對環(huán)境的最優(yōu)適應的方式,通過(guò)不斷地反復試驗,將變化無(wú)常的動(dòng)態(tài)情況與對應動(dòng)作相匹配。強化學(xué)習系統設置狀態(tài)、動(dòng)作、狀態(tài)轉移概率和獎賞四個(gè)部分,在當前狀態(tài)下根據策略選擇動(dòng)作,執行該過(guò)程并以當前轉移概率轉移到下一狀態(tài),同時(shí)接收環(huán)境反饋回來(lái)的獎賞,最終通過(guò)調整策略來(lái)最大化累積獎賞。

  深度學(xué)習具有較強的感知能力,但缺乏一定的決策能力;強化學(xué)習具有決策能力,同樣對感知問(wèn)題無(wú)能為力。深度強化學(xué)習方法是將具有感知能力的深度學(xué)習和具有決策能力的強化學(xué)習結合起來(lái),優(yōu)勢互補,用深度學(xué)習進(jìn)行感知,從環(huán)境中獲取目標觀(guān)測信息,提供當前環(huán)境下的狀態(tài)信息;然后用強化學(xué)習進(jìn)行決策,將當前狀態(tài)映射到相應動(dòng)作,基于初期匯報評判動(dòng)作價(jià)值。

  深度強化學(xué)習為復雜系統的感知決策問(wèn)題提供了一種全新的解決思路。

  2.2 蒙特卡洛樹(shù)搜索

  蒙特卡洛樹(shù)搜索是將蒙特卡洛方法與樹(shù)搜索相結合形成的一種搜索方法。所謂蒙特卡洛方法是一種以概率統計理論為指導的強化學(xué)習方法,它通常解決某些隨機事件出現的概率問(wèn)題,或者是某隨機變量的期望值等數字特征問(wèn)題。通過(guò)與環(huán)境的交互,從所采集的樣本中學(xué)習,獲得關(guān)于決策過(guò)程的狀態(tài)、動(dòng)作和獎賞的大量數據,最后計算出累積獎賞的平均值。

  蒙特卡洛樹(shù)搜索算法是一種用于解決完美信息博弈(perfect information games,沒(méi)有任何信息被隱藏的游戲)的方法,主要包含選擇(Selection)、擴展(Expansion)、模擬(Simulation)和反向傳播(Backpropagation)四個(gè)步驟。

  2.3 策略網(wǎng)絡(luò )與價(jià)值網(wǎng)絡(luò )

  AlphaGo系統擁有基于蒙特卡洛樹(shù)搜索方法的策略網(wǎng)絡(luò )(Policy Network)和價(jià)值網(wǎng)絡(luò )(Value Network)兩個(gè)不同的神經(jīng)網(wǎng)絡(luò )大腦,充分借鑒人類(lèi)棋手的下棋模式,用策略網(wǎng)絡(luò )來(lái)模擬人類(lèi)的“棋感”,用價(jià)值網(wǎng)絡(luò )來(lái)模擬人類(lèi)對棋盤(pán)盤(pán)面的綜合評估。

  AlphaGo系統主要采用有監督學(xué)習策略網(wǎng)絡(luò ),通過(guò)觀(guān)察棋盤(pán)布局,進(jìn)行棋路搜索,得到下一步合法落子行動(dòng)的概率分布,從中找到最優(yōu)的一步落子位置,做落子選擇。DeepMind團隊使用棋圣堂圍棋服務(wù)器上3000萬(wàn)個(gè)專(zhuān)業(yè)棋手對弈棋譜的落子數據,來(lái)預測棋手的落子情況。期間,系統進(jìn)行上百萬(wàn)次的對弈嘗試,進(jìn)行強化學(xué)習,將每一個(gè)棋局進(jìn)行到底,不斷積累“經(jīng)驗”,學(xué)會(huì )贏(yíng)面最大的棋路走法,最終達到頂級圍棋棋手的落子分析能力。而AlphaGo的價(jià)值網(wǎng)絡(luò )使用百萬(wàn)次對弈中產(chǎn)生的棋譜,根據最終的勝負結果來(lái)進(jìn)行價(jià)值網(wǎng)絡(luò )訓練,預測每一次落子選擇后贏(yíng)棋的可能性,通過(guò)整體局面的判斷來(lái)幫助策略網(wǎng)絡(luò )完成落子選擇。

  3 圍棋人工智能意義

  經(jīng)過(guò)比賽測試證明,AlphaGo系統的圍棋對弈能力已經(jīng)達到世界頂級棋手水平。一直以來(lái),圍棋因為復雜的落子選擇和巨大的搜索空間使得圍棋人工智能在人工智能領(lǐng)域成為一個(gè)具有代表性的難度挑戰。目前的硬件水平面對如此巨大的搜索空間顯得束手無(wú)策,AlphaGo系統基于有監督學(xué)習的策略網(wǎng)絡(luò )和價(jià)值網(wǎng)絡(luò )大大減少搜索空間,在訓練中開(kāi)創(chuàng )性地使用深度強化學(xué)習,然后結合蒙特卡洛樹(shù)搜索方法,使得系統自學(xué)習能力大大提高,并且AlphaGo系統在與人類(lèi)頂級棋手對弈中取得的連勝卓越成績(jì),櫧湓諶斯ぶ悄芰煊虻於了堅實(shí)的里程碑地位。

  雖然圍棋人工智能取得了如此優(yōu)秀的成績(jì),但是也僅僅是它在既定規則內的計算處理能力遠遠超過(guò)了人類(lèi)的現有水平,并且還有有待提高和完善的地方。在人類(lèi)的其他能力中,例如情感、思維、溝通等等領(lǐng)域,目前的人工智能水平是遠遠達不到的。但是隨著(zhù)科技的進(jìn)步和人類(lèi)在人工智能領(lǐng)域的研究深入,人工智能與人類(lèi)的差距會(huì )逐漸減小,像圍棋人機大戰人工智能連勝人類(lèi)這樣的例子也可能在其他領(lǐng)域發(fā)生,這就意味著(zhù)人工智能的發(fā)展前景十分可觀(guān)。

  4 結語(yǔ)

  人類(lèi)和人工智能共同探索圍棋世界的大幕即將拉開(kāi),讓人類(lèi)棋手結合人工智能,邁進(jìn)全新人機共同學(xué)習交流的領(lǐng)域,進(jìn)行一次新的圍棋革命,探索圍棋真理更高的境界。

  參考文獻

  [1]趙冬斌,邵坤,朱圓恒,李棟,陳亞冉,王海濤,劉德榮,周彤,王成紅.深度強化學(xué)習綜述:兼論計算機圍棋的發(fā)展[J].控制理論與應用,2016,(06):701-717.

  [2]陶九陽(yáng),吳琳,胡曉峰.AlphaGo技術(shù)原理分析及人工智能軍事應用展望[J].指揮與控制學(xué)報,2016,(02):114-120.

【人工智能方面的論文】相關(guān)文章:

人工智能的論文07-01

人工智能的影響論文07-01

人工智能的研究論文07-01

淺談人工智能論文07-01

人工智能的相關(guān)論文07-02

人工智能科普論文07-02

交通方面的論文07-02

關(guān)于人工智能的論文下載07-02

人工智能未來(lái)發(fā)展論文07-01

有關(guān)人工智能的論文07-01

99久久精品免费看国产一区二区三区|baoyu135国产精品t|40分钟97精品国产最大网站|久久综合丝袜日本网|欧美videosdesexo肥婆