基于中文自然語(yǔ)言理解的農業(yè)信息自動(dòng)回答系統論文

時(shí)間:2022-12-14 12:22:16 農業(yè)經(jīng)濟管理 我要投稿
  • 相關(guān)推薦

基于中文自然語(yǔ)言理解的農業(yè)信息自動(dòng)回答系統論文

  摘 要:隨著(zhù)信息社會(huì )、知識經(jīng)濟的到來(lái),傳統的被動(dòng)式知識傳授已逐步讓位于主動(dòng)式知識探究。本系統主要從農業(yè)的信息角度出發(fā),采用中文自然語(yǔ)言處理技術(shù),建立知識庫和自動(dòng)分詞,進(jìn)行語(yǔ)言理解,這樣一方面完成對用戶(hù)提問(wèn)的理解;另一方面完成正確答案的生成,使農民能夠及時(shí)得到自己想要的信息,更快捷的處理疑問(wèn),使其真正實(shí)現農業(yè)信息化。

基于中文自然語(yǔ)言理解的農業(yè)信息自動(dòng)回答系統論文

  關(guān)鍵詞: 自然語(yǔ)言理解;自動(dòng)回答;知識庫;自動(dòng)分詞;語(yǔ)言理解

  自然語(yǔ)言理解(natural language understanding,NLU),又稱(chēng)自然語(yǔ)言處理(natural language processing, NLP),人工智能研究的重要內容之一。自然語(yǔ)言理解,是指計算機對自然語(yǔ)言的音,形,義等信息進(jìn)行處理,即對字,詞,句子和篇章的輸入,輸出,識別,分析,理解,生成等操作和加工。就是利用電子計算機來(lái)理解自然語(yǔ)言,使計算機懂得人的語(yǔ)言,讓計算機在人的語(yǔ)言的指揮下,進(jìn)行某些“智能”活動(dòng)。

  自然語(yǔ)言理解是一門(mén)新興的邊緣學(xué)科,內容涉及語(yǔ)言學(xué)、心理學(xué)、邏輯學(xué)、聲學(xué)、數學(xué)和計算機科學(xué),而以語(yǔ)言學(xué)為基礎。自然語(yǔ)言理解的研究,綜合應用了現代語(yǔ)音學(xué)、音系學(xué)語(yǔ)法學(xué)、語(yǔ)義學(xué)、語(yǔ)用學(xué)的知識,同時(shí)也向現代語(yǔ)言學(xué)提出了一系列的問(wèn)題和要求。這門(mén)學(xué)科也通過(guò)長(cháng)期的研究,已經(jīng)形成了一整套的理論和方法,使我們加深了人類(lèi)語(yǔ)言現象的理解,并且能解決在自然語(yǔ)言的應用中遇到的許多實(shí)際問(wèn)題。

  中文信息處理

  1. 領(lǐng)域知識庫構建,中文自動(dòng)分詞

  領(lǐng)域知識庫是用來(lái)存儲領(lǐng)域專(zhuān)家提供的專(zhuān)門(mén)知識的集合體。這種專(zhuān)門(mén)知識即包括領(lǐng)域對象的原理性知識,如有關(guān)對象的概念、事實(shí)、定理、方程、方法、模型、實(shí)驗、和操作等。一般或存在于書(shū)本或文獻中,大多數有確定的數學(xué)模型;也包括專(zhuān)家解決復雜的不良結果問(wèn)題時(shí)得到的經(jīng)驗等啟發(fā)性知識。

  領(lǐng)域知識庫是基于知識的系統的核心部件,知識庫中的知識數量和質(zhì)量直接決定著(zhù)系統性能和效率。

  構建領(lǐng)域知識庫。知識是智能的基礎,為了使計算機具有智能,使它能模擬人類(lèi)的智能行為,就必須使它具有知識,但是需要把人類(lèi)擁有的知識采用適當的模式表示出來(lái),才能存儲到計算機中去,這就是知識表示要解決的問(wèn)題。知識表示是對知識的一種描述,或者說(shuō)是一組約定,是一種計算機可以接受的、用于描述知識的數據結構,對知識進(jìn)行表示就是把知識表示成便于計算機存儲和利用的某種數據結構,知識表示方法又稱(chēng)為知識表示技術(shù),其表示形式稱(chēng)為知識表示模式。

  目前使用較多的只是表示方法有:一階謂詞邏輯表示法,產(chǎn)生式表示法,框架表示法,語(yǔ)義網(wǎng)絡(luò )表示法,面向對象表示法。

  一個(gè)完整的知識庫非常龐大,不僅需要精密的框架設計還要錄入海量的詞匯數據,甚至還有一次多義、多詞同義等特殊情況。知識庫中需要一個(gè)詞匯集合來(lái)存放已知的詞匯信息。在數據庫中建立詞匯表,各字段如下:編號(id)表示本條詞語(yǔ)在數據庫中的編號。為整數類(lèi)形,自動(dòng)遞增且為主鍵,必填字段。詞語(yǔ)(word)表示詞匯本身,為字符類(lèi)型,必填字段,詞性(partos)表示詞匯的詞性,為字符類(lèi)型,必填字段。近義詞(similar)表示詞匯的相近詞匯,為字符類(lèi)型,可選字段,詞義(acceptation)表示詞匯的詞義,字符類(lèi)型,可選字段。備注(remark)例如:id:1,word:大豆partos:名詞,similar:黃豆。當然基于農業(yè)領(lǐng)域的知識庫構建只有詞匯表是不夠的,還要有農業(yè)信息知識庫。以大豆為例,大豆的基礎知識,大豆的品種介紹,大豆植物學(xué)特征,大豆生物學(xué)特征,大豆病害,大豆蟲(chóng)害,大豆草害,大豆栽培技術(shù),大豆高產(chǎn)栽培技術(shù),大豆栽培新技術(shù),大豆市場(chǎng)信息等等。所以要對各種農業(yè)信息進(jìn)行詳細入庫,并使其更高效查詢(xún)。

  中文自動(dòng)分詞(Chinese Word Segmentation)指的是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨的詞。中文自動(dòng)分詞是文本挖掘的基礎,對于輸入的一段中文,成功的進(jìn)行中文自動(dòng)分詞,可以達到電腦自動(dòng)識別語(yǔ)句含義的效果。漢語(yǔ)自動(dòng)分詞的任務(wù),通俗地說(shuō),就是要由機器在中文文本中詞與詞之間自動(dòng)加上空格。

  現有的分詞算法可分為三大類(lèi):基于字符串匹配的分詞方法、基于理解的分詞方法和基于統計的分詞方法。

  (1)基于字符串匹配的分詞方法:本質(zhì)就是基于大規模詞庫的機械分詞方法。

  (2)基于理解的分詞方法:基本思想就是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析,

  利用句法信息和語(yǔ)義信息來(lái)處理歧義現象。通常包括3個(gè)部分:分詞子系統、句法語(yǔ)義子系統、總控部分。

  (3) 基于統計的分詞方法:主要是利用詞是穩定的字的組合這一規律,這樣就可以通過(guò)記錄字與字相鄰共現的頻率從而利用概率統計的方法給切詞系統提供切分標準。

  本系統為自動(dòng)回答系統,所以要充分理解每一條用戶(hù)所提信息,以上分詞方法作為本系統基礎分詞的方法,在對領(lǐng)域內的名詞用概念從屬樹(shù)組織起來(lái),再利用格語(yǔ)法理論建立動(dòng)詞的靜態(tài)知識庫,用靜態(tài)事實(shí)庫配合概念從屬樹(shù)的爬樹(shù)過(guò)程來(lái)完成對切詞結果的語(yǔ)義分析,同時(shí)對切詞結果進(jìn)行歧義排除。

  2. 進(jìn)行語(yǔ)言分析,語(yǔ)言理解的實(shí)現

  語(yǔ)言雖然表示成一連串的文字符號或者一串聲音流,但其內部實(shí)際上是一個(gè)層次化的結構,語(yǔ)言的分析和理解過(guò)程也應當是一個(gè)層次化的過(guò)程,一般分為詞法分析、句法分析、和語(yǔ)義分析。詞法分析的主要目的是找出詞匯的各個(gè)詞素,從中獲得語(yǔ)言學(xué)信息,漢語(yǔ)中每個(gè)字都是一個(gè)詞素,但是切分出各個(gè)詞就不是那么容易的。例如,我們研究所有東西,可以是“我們——研究所——有——東西“,也可以是”我們——研究——所有——東西“。句法分析是對句子和短語(yǔ)的結構進(jìn)行分析,最直接的方法就是模式匹配,如noun+verb+noun,但自然語(yǔ)言有很多變化,一個(gè)句子可以表示成((pronoun∨(adj*noun))verb(pronoun∨(adj*noun))

  這也可以用狀態(tài)轉移圖來(lái)表示,稱(chēng)之為轉移網(wǎng)絡(luò )(TN,transition network)。語(yǔ)義分析就是通過(guò)分析找出詞義、結構意義及其結合意義,從而確定語(yǔ)言所表達的真正含義和概念。語(yǔ)義分析方法主要有謂詞邏輯、語(yǔ)義網(wǎng)絡(luò )、格語(yǔ)法、概念從屬理論等等。

  語(yǔ)言理解的實(shí)現,農業(yè)信息的語(yǔ)句結構相對簡(jiǎn)單,句子組成遠不如日常用語(yǔ)那么復雜。農業(yè)詞語(yǔ)根據行業(yè)特性、構成特點(diǎn)的差異,可以劃分為農業(yè)術(shù)語(yǔ)、農業(yè)語(yǔ)詞、農業(yè)用語(yǔ)三個(gè)層次。農業(yè)術(shù)語(yǔ)一般運用于行業(yè)典籍,農業(yè)語(yǔ)詞較易為行外人士理解,農業(yè)用語(yǔ)容易發(fā)生分化。其擴散以南北朝同類(lèi)文獻為起點(diǎn),到普通文獻的農業(yè)語(yǔ)境,然后到普通文獻的非農業(yè)語(yǔ)境,經(jīng)過(guò)激烈競爭,部分詞語(yǔ)保留到了后世文獻中。專(zhuān)門(mén)詞語(yǔ)和一般詞語(yǔ)可以互相轉化,行業(yè)色彩輕重是決定性因素:農業(yè)術(shù)語(yǔ)演變?yōu)橐话阍~語(yǔ)的難度較大,演變?yōu)檗r業(yè)語(yǔ)詞的難度較小,演變?yōu)檗r業(yè)用語(yǔ)的難度最大。農業(yè)信息提問(wèn)句式以農業(yè)方面名詞開(kāi)頭,并大多數以疑問(wèn)句存在。下面以“大豆子葉上產(chǎn)生赤褐色圓形斑是什么病,怎樣防治”。

  這個(gè)句子根據上面的切詞方法,首先字符匹配可以切成“大豆/子葉/上/產(chǎn)生/赤褐色/圓形/斑/是/什么/病/,/怎樣/防治”.用這種方法會(huì )產(chǎn)生歧義,也可以分成“大豆子/葉/上/產(chǎn)生/赤褐色/圓形/斑/是/什么/病/,/怎樣/防治”。大豆和大豆子在農業(yè)上是兩種植物,所以還要進(jìn)一步對這句話(huà)理解,分析其句子成分,找到主語(yǔ),謂語(yǔ),賓語(yǔ)。只要能準確分析出句子的每個(gè)成分,那么整句的分析就有了一個(gè)良好的基礎!埃ù蠖棺尤~上產(chǎn)生赤褐色圓形斑)主語(yǔ)(是)謂語(yǔ)(什么。┵e語(yǔ),(怎么)主語(yǔ)(防治)謂語(yǔ)。首先找到句子謂語(yǔ)(謂語(yǔ)一般由動(dòng)詞構成的),這樣我們就可以根據分詞到指示表中找到句子中的謂語(yǔ),在程序中一般掃描謂語(yǔ)前面的為主語(yǔ),謂語(yǔ)后面的為賓語(yǔ)。找到主語(yǔ)和賓語(yǔ)到知識表中各個(gè)詞進(jìn)行搜索,搜索引擎會(huì )把搜到的結果進(jìn)行排列,降低切詞帶來(lái)的歧義性,找到用戶(hù)提出問(wèn)題的最佳答案。

  3. 語(yǔ)言自動(dòng)生成。

  一個(gè)基于中文自然語(yǔ)言理解的農業(yè)信息自動(dòng)回答系統不僅是理解了提問(wèn)就算完成,最重要的是對問(wèn)題的回答。語(yǔ)言生成就是把在計算機內部以某種形式存放的需要交流的信息,以自然語(yǔ)言的形式表達出來(lái)。語(yǔ)言生成是自然語(yǔ)言理解的一個(gè)逆過(guò)程。一般包括以下兩部分:1、建立一種結構,以表達出需要交流的信息。2、以適當的詞匯和一定的句法規則,把要交流的信息以句子形式表達出來(lái)。同自然語(yǔ)言理解一樣,語(yǔ)言生成的處理方法有很多種,這不僅由于它們所采用的內部表達結構不同(如采用語(yǔ)義網(wǎng)絡(luò )或者概念從屬等),而且由于語(yǔ)言生成的目的不同(如有的目的是為了對輸入文章作摘要,有的是為了作為問(wèn)題回答系統的人-機界面等) 。

  本系統首先要建立一種結構,以回答的形式為主,如:主語(yǔ)+”是”+(賓語(yǔ)),如果我們要回答“大豆子葉上產(chǎn)生赤褐色圓形斑是什么病”這個(gè)問(wèn)題,就要提出主語(yǔ)(大豆子葉上產(chǎn)生赤褐色圓形斑)+謂語(yǔ)(是)+賓語(yǔ)(來(lái)自知識庫)。知識庫中有大豆紫斑。òY狀、病原、傳播途徑和發(fā)病條件、防治方法)。程序查找到(大豆子葉上產(chǎn)生赤褐色圓形斑)為大豆紫斑病的癥狀里邊的字段,程序可得出賓語(yǔ)(大豆紫斑病),同時(shí)第二個(gè)問(wèn)題也進(jìn)行了回答。

  在本問(wèn)題得到完善回答后,系統后臺在程序運行前期需要進(jìn)行人工審核,如果問(wèn)題回答出現偏差需要及時(shí)修改,并存入歷史數據庫。如有相同問(wèn)題出現時(shí),可直接讀取歷史數據庫進(jìn)行回答。使本系統更加完善,搜索更高效,回答更準確,更加有利于用戶(hù)使用。

  結束語(yǔ)

  本文設計了一個(gè)簡(jiǎn)單的基于中文自然語(yǔ)言理解的農業(yè)信息自動(dòng)回答系統,本系統的核心技術(shù)為中文的自然語(yǔ)言理解技術(shù),實(shí)現了領(lǐng)域知識庫的建立,中文的自動(dòng)分詞和進(jìn)行了語(yǔ)言分析、語(yǔ)言理解的實(shí)現,并成功對其所提出問(wèn)題進(jìn)行了合理回答。經(jīng)過(guò)簡(jiǎn)單的輸入測試,系統初步達到設計目的。能夠滿(mǎn)足一些簡(jiǎn)單農業(yè)信息要求。還存在不足之處待以后改進(jìn)。

  (1)擴充知識庫。雖然是農業(yè)領(lǐng)域知識庫,但其內容涉及也是十分龐大的,

  所以無(wú)論在結構上或內容上都要擴充知識庫。

  (2)完善分詞算法。本系統分詞還存在歧義性,還需要長(cháng)時(shí)間的對各種句子測試和改進(jìn)。

  (3)完善語(yǔ)言理解和自動(dòng)回答。

  自然語(yǔ)言的豐富程度遠遠超過(guò)這些,如何做到更高級的自動(dòng)回答系統,使機器語(yǔ)言理解更加智能,是一個(gè)長(cháng)期且艱巨的任務(wù)。

  參考文獻:

  [1]馮志偉。 國外主要自然語(yǔ)言理解系統概況  計算機科學(xué) 1984(2)

  [2]吳 江。 中文自然語(yǔ)言理解技術(shù)與智能檢索 圖書(shū)館學(xué)研究 2006(3)

  [3]尹朝慶, 尹皓。人工智能與專(zhuān)家系統  中國水利水電出版社 2002

  [4]豐博,胡鋼偉,趙克,億珍珍。 一種自反饋漢語(yǔ)切詞系統的研究和實(shí)現 計算機技術(shù)與發(fā)展 2006(5)

  [5]王祥濱,趙 克,程培濤,許 威。 基于領(lǐng)域自然語(yǔ)言理解的知識庫管理系統 計算機技術(shù)與發(fā)展 2009(12)

  [6]蔡自興,徐光祐。人工智能及其應用 清華大學(xué)出版社 2003

  [7]化振紅!洱R民要術(shù)》農業(yè)詞語(yǔ)擴散的層次分析 學(xué)術(shù)論壇 2006(12)

  [8]由麗萍 ,范開(kāi)泰 ,劉開(kāi)瑛  漢語(yǔ)語(yǔ)義分析模型研究述評 中文信息學(xué)報 :2005(7)

【基于中文自然語(yǔ)言理解的農業(yè)信息自動(dòng)回答系統論文】相關(guān)文章:

基于C/S的酒店信息管理系統的教學(xué)設計論文06-25

基于自動(dòng)控制系統的汽車(chē)電子技術(shù)分析論文07-04

excel試卷分析系統:基于Excel的自動(dòng)閱卷評分系統06-24

基于U盤(pán)式設計的教學(xué)信息管理系統設計思考論文07-03

基于B/S架構的物流管理信息系統的設計論文07-04

基于Web的網(wǎng)絡(luò )考試系統設計與實(shí)現論文07-03

基于μSOS的智能家居系統設計論文07-04

基于SSH的科研管理系統設計與實(shí)現論文06-27

基于RFID學(xué)生考勤管理系統的設計論文06-28

基于智能建筑中的樓宇自動(dòng)化系統的設計研究的建筑工程論文07-02

99久久精品免费看国产一区二区三区|baoyu135国产精品t|40分钟97精品国产最大网站|久久综合丝袜日本网|欧美videosdesexo肥婆