- 相關(guān)推薦
淺談校園網(wǎng)多數據源信息檢索系統的設計與實(shí)現論文
論文關(guān)鍵詞:信息集成 異構數據 odi nutch lucene
論文摘要:高校校園網(wǎng)信息資源數量巨大,各信息發(fā)布系統的相互獨立及多種異構數據源的使用對在校園網(wǎng)范圍內進(jìn)行統一的信息檢索設置了障礙,系統著(zhù)重解決由非結構化文本數據和結構化數據庫數據形成的多數據源的集成與整合問(wèn)題,在nutch搜索引擎基礎上利用lucene接口對多種源數據建立索引,構建多數據源全文信息檢索平臺,從而有效地實(shí)現全網(wǎng)信息檢索并提高檢索速度和精度。
一、引 言
隨著(zhù)校園信息化進(jìn)程的不斷深入,校園網(wǎng)上信息資源的數量迅速膨脹,各種相互獨立的信息發(fā)布系統在提高效率的同時(shí),也為校園網(wǎng)范圍內統一的信息檢索設置了障礙,校園網(wǎng)信息資源主要包括兩類(lèi)數據:一類(lèi)是非結構化文本數據,以網(wǎng)頁(yè)文件、文本文件、電子郵件等形式存儲在多個(gè)信息系統當中:另一類(lèi)是結構化數據,以數據記錄的形式存儲在不同的異構數據庫之中。由于各獨立信息系統間沒(méi)有相互連接的渠道,快速檢索校園網(wǎng)內部信息存在著(zhù)較大困難。如何設計一個(gè)穩定而高效的架構,能夠對多種信息數據源進(jìn)行集成與整合,實(shí)現全網(wǎng)范圍內全文信息檢索成為校園信息化過(guò)程中一個(gè)重要研究課題。
校園網(wǎng)信息檢索技術(shù)大體可分為三個(gè)發(fā)展階段:第一階段是基于數據庫查詢(xún)方式的結構化數據檢索,應用于信息發(fā)布系統內部的檢索功能,通常是通過(guò)匹配標題、作者和摘要等字段來(lái)實(shí)現信息檢索。由于受到數據庫性能、檢索效率等因素影響,不能實(shí)現基于匹配正文內容的全文檢索,因此該階段檢索方式從檢索范圍到檢索性能及效果都并不能完全滿(mǎn)足現階段用戶(hù)的需要:第二階段是將基于互聯(lián)網(wǎng)的搜索引擎技術(shù)應用于校園網(wǎng),構建校園網(wǎng)信息檢索平臺。主要采用開(kāi)源lueene提供的全文檢索功能和基于lucene索引管理、存儲和檢索技術(shù)之上的nutch搜索引擎技術(shù)。這兩種方式能夠實(shí)現對非結構化文本數據和結構化數據庫數據的檢索,應用在網(wǎng)站站內索引、企業(yè)內部文檔管理及知識管理系統等多方面,對應用系統內部全文信息檢索取得了較好的效果,但要實(shí)現校園網(wǎng)全網(wǎng)范圍內多系統綜合信息檢索還有待進(jìn)一步完善與改進(jìn):當前校園網(wǎng)信息檢索技術(shù)已經(jīng)發(fā)展到多系統多數據源信息檢索階段,通過(guò)多種方式將各種數據源統一建立索引進(jìn)行檢索,對于非結構化文本的web頁(yè)面信息采用網(wǎng)絡(luò )爬蟲(chóng)方式獲取數據,對于結構化文檔數據源可通過(guò)lucene接口和nutch插件機制與第三方類(lèi)庫相結合來(lái)進(jìn)行文檔分析處理,對于數據庫資源通過(guò)lucene數據庫訪(fǎng)問(wèn)接口來(lái)獲取數據記錄并建立索引。目前校園網(wǎng)信息檢索平臺大多是以檢索功能為核心通過(guò)上述方式與多數據源集成的輻射狀架構,該種架構雖可實(shí)現全網(wǎng)多數據源檢索,但檢索平臺與各應用系統耦合度高,系統整體穩定性和可擴展性較差,數據安全和數據質(zhì)量較低。
針對上述問(wèn)題,本系統將數據采集和數據集成作為平臺整體架構的基礎,將oracle數據集成工具odi用于對多數據源結構化數據的抽取、轉換和處理,從而提供一個(gè)統一的全局共享數據源,對非結構化文本數據提供對word、pdf、ppt及xml等多種格式化文檔解析的支持、以上述工作為基礎,系統將分散分布、非結構化、異構的信息資源統一整合,提供給校園網(wǎng)用戶(hù)統一的全文信息檢索平臺。
二、系統體系結構
多數據源校園網(wǎng)信息檢索系統分為數據采集層和信息檢索層兩層體系架構,數據采集層以oracle全局數據庫為核心向下通過(guò)odi集成各異構數據庫數據,并通過(guò)網(wǎng)絡(luò )爬蟲(chóng)和非結構化文本數據解析來(lái)實(shí)現多數據源數據采集,向上通過(guò)數據庫接口為上層應用提供數據:信息檢索層采用以lueene為基礎的nutch搜索引擎實(shí)現信息索引和檢索。系統共包括異構數據庫集成、異構文檔解析、信息分類(lèi)模塊、信息索引模塊、信息檢索模塊和系統管理模塊六部分,系統體系結構如圖1所示。
校園網(wǎng)信息檢索技術(shù)并不是簡(jiǎn)單地將開(kāi)源搜索引擎技術(shù)應用于校園網(wǎng),而是針對校園網(wǎng)內部數據特點(diǎn)設計相應的解決方案。異構數據庫集成模塊從系統底層做好結構化數據庫數據的高效獲取和有效組織。校園網(wǎng)內信息發(fā)布以web網(wǎng)站為主要方式,對其進(jìn)行信息檢索一是采用網(wǎng)絡(luò )爬蟲(chóng)方式進(jìn)行數據采集:二是通過(guò)lucene數據庫接口與各異構數據庫相連采集數據,第一種方式雖然操作簡(jiǎn)單,但在數據采集質(zhì)量和深度上都有所不足,并沒(méi)有充分利用校園網(wǎng)信息數據存儲的特點(diǎn):第二種方式雖然在數據來(lái)源上有所改進(jìn),但在系統的穩定性、耦合程度和可擴展性上都存在不足,從各異構數據庫中獲取的數據無(wú)法進(jìn)一步加工處理,從而導致對上層應用的支持有限。校園網(wǎng)內數據雖然表現為web網(wǎng)頁(yè)等非結構化文本形式,但其數據來(lái)源大都存儲在結構化數據庫中。通過(guò)獲取對各業(yè)務(wù)異構數據庫的查詢(xún)管理權限,系統將oracle數據集成工具odi代替網(wǎng)絡(luò )爬蟲(chóng)和數據庫訪(fǎng)問(wèn)接口,從底層實(shí)現對多個(gè)異構數據庫的統一管理,使系統具有更加穩定和高效的數據來(lái)源。異構文檔解析模塊實(shí)現對pdf、office等文檔的解析功能,通過(guò)插件機制提取各種格式化文檔的文本信息進(jìn)行處理。信息分類(lèi)模塊按照信息來(lái)源的部門(mén)、發(fā)布時(shí)間等提供分類(lèi)信息檢索,實(shí)現信息的高級檢索功能。信息索引模塊對多種數據源數據建立索引,并進(jìn)行索引優(yōu)化以減少索引文件的數量,并且能在搜索時(shí)減少讀取索引文件的時(shí)間。信息檢索模塊為校園網(wǎng)用戶(hù)提供統一的信息檢索的平臺,可以快速定位用戶(hù)所需資源,及時(shí)有效地獲取信息。系統管理模塊針對不同資源,設置不同的訪(fǎng)問(wèn)權限,按照用戶(hù)權限決定可以訪(fǎng)問(wèn)的資源。
三、系統主要功能模塊
1.oracle數據集成工具(odi)
odi(oracle data integrator)是oracle公司采用elt理念進(jìn)行數據抽取、加載、轉換的數據集成中間件工具,其最大特點(diǎn)是提出了知識模塊的概念。odi將一些場(chǎng)景(如文件加載到數據庫,從mysql數據庫抓取數據到oracle數據庫等)的詳細實(shí)現步驟使用jvthon腳本語(yǔ)言結合數據庫sql語(yǔ)句錄制成詳細的步驟記錄下來(lái),形成知識模塊,odi中共有超過(guò)100種主流數據庫引擎和應用系統的知識模塊,基本上包含了普通應用所涉及的所有場(chǎng)景,因此odi可以實(shí)現對校園網(wǎng)內多種異構數據庫的支持。在一個(gè)數據集成任務(wù)中,odi通過(guò)聲明設計運用接口和關(guān)系圖等概念聲明數據集成規則,使集成的邏輯和技術(shù)層面分離,底層的技術(shù)方面由知識模塊描述和定義,系統只需要把重點(diǎn)放在集成任務(wù)規則的制定上面,再將制定好的集成規則封裝為一個(gè)服務(wù)模型。發(fā)布和訂閱該模型便可實(shí)現類(lèi)似于數據增量定時(shí)更新的功能,異構數據庫集成模塊示意如圖2所示。
系統以全局數據庫為核心通過(guò)odi工具對校園網(wǎng)內異構數據庫數據進(jìn)行抽取、轉換、清洗和加載,集成后的數據質(zhì)量得到了提高,對異構數據源的處理也得到了加強。在對數據處理的過(guò)程中提取了信息的標題、作者、正文、發(fā)布時(shí)間、url地址等字段,可定時(shí)對各異構數據庫數據進(jìn)行增量更新操作,從而替代利用網(wǎng)絡(luò )爬蟲(chóng)獲取信息數據。oracle全局數據庫可以集成校園網(wǎng)內大部分信息發(fā)布系統的數據并提供給信息索引和檢索模塊。
2.lucene與nutch
lucelle不是一個(gè)完整的搜索引擎,而是一個(gè)用于實(shí)現全文檢索的軟件庫,采用java語(yǔ)言開(kāi)發(fā),提供了檢索內核,其設計原理是索引檢索,任何信息資源只要被轉換成文本格式都可以被檢索。nutch是lucene得到廣泛應用和認可后出現的搜索引擎系統,內部使用了lucene的索引檢索技術(shù),并進(jìn)一步封裝了網(wǎng)絡(luò )爬蟲(chóng)和分布式處理等模塊從而成為一個(gè)完整的應用系統。本系統以nutch為基礎,既應用了nuteh系統的完整性,減少了不必要的開(kāi)發(fā),又可靈活使用lucene接口,豐富系統功能。
對于非結構化文本信息,系統對office文檔采用了poi插件方式,用pdfbox插件來(lái)實(shí)現對pdf文檔的讀取,并將上述插件集成到nutch當中。信息檢索的基礎是文本分析,而文本分析在很大程度上依賴(lài)于分詞模塊對語(yǔ)言的處理。nutch自帶的cjk分詞模塊對中文分詞的效率和準確度上不能滿(mǎn)足實(shí)際需要。為此。在對比了je分詞、paoding分詞和ictclas分詞等多款中文分詞模塊后,paoding分詞由于其開(kāi)源性和良好的分詞效果被本系統采用,并通過(guò)nuteh的插件機制集成到系統當中。
3.信息索引與檢索
為滿(mǎn)足用戶(hù)全網(wǎng)檢索和分類(lèi)分部門(mén)檢索信息的需要,并提高檢索效率,信息索引模塊首先對每個(gè)數據源建立索引文件提供給分類(lèi)檢索用戶(hù),然后通過(guò)優(yōu)化索引提供給全網(wǎng)檢索用戶(hù)。優(yōu)化索引就是將多個(gè)索引文件合并成單個(gè)文件的過(guò)程,目的是為了減少索引文件的數量,并且能在搜索時(shí)減少讀取索引文件的時(shí)間。nutch中的indexwrite類(lèi)提供了optimize方法實(shí)現該優(yōu)化操作。利用nutch中的multisearcher類(lèi)可實(shí)現對優(yōu)化后索引的全網(wǎng)檢索功能,檢索結果會(huì )以一種指定的順序合并起來(lái)。
針對校園網(wǎng)用戶(hù)信息檢索的特點(diǎn)。綜合考慮信息相關(guān)度、時(shí)效性和訪(fǎng)問(wèn)量等因素后,系統采用了自定義的排序機制,文檔文本相關(guān)度作為信息檢索的主要排序依據,信息發(fā)布時(shí)間和訪(fǎng)問(wèn)次數作為重要的排序因子,系統通過(guò)lucene的激勵因子boost值來(lái)改變文檔得分,從而調整文檔的出現順序。系統為校園網(wǎng)用戶(hù)提供了通用檢索和高級檢索功能,通用檢索在用戶(hù)輸入檢索信息的關(guān)鍵字后可檢索出所需信息:高級檢索功能為用戶(hù)提供了更為詳細的檢索條件,用戶(hù)可根據需要對信息進(jìn)行更加精細的檢索。系統管理功能除對用戶(hù)權限進(jìn)行管理外還對信息檢索結果進(jìn)行屏蔽和進(jìn)一步處理。
四、系統運行環(huán)境
考慮到開(kāi)發(fā)調試和維護的方便性,系統在測試運行期間采用了windows平臺。上層在開(kāi)源nutch搜索引擎的基礎上進(jìn)行開(kāi)發(fā),采用myeclipse作為開(kāi)發(fā)平臺,用java語(yǔ)言實(shí)現,因此具有跨平臺特性。但由于運行nutch自帶的腳本命令需要linux環(huán)境,所以必須首先安裝cygwin來(lái)模擬這種環(huán)境。為了確保nutch1.0版本能夠正確運行,java虛擬機需采用jdk1.6以上的版本,運用websphere6.0作為檢索平臺的容器。系統底層采用oracle 10g作為全局數據庫。數據集成工具odi版本為10.1.3,與數據庫安裝在同一臺服務(wù)器上。
五、結束語(yǔ)
校園網(wǎng)多數據源信息檢索系統將oracle數據集成工具odi引入到數據采集模塊,實(shí)現了對校園網(wǎng)內各信息發(fā)布系統后臺異構數據庫的有效整合與集成,改變了以往主要通過(guò)網(wǎng)絡(luò )爬蟲(chóng)獲取數據的方式,提高了數據來(lái)源的精度與質(zhì)量,又通過(guò)nutch插件機制實(shí)現了對非結構化文本的解析。從而為信息索引與檢索打下了良好的基礎。信息檢索模塊基于nutch搜索引擎技術(shù)并充分利用lucene接口實(shí)現了靈活高效的全網(wǎng)信息檢索系統
該系統為校園網(wǎng)用戶(hù)提供了方便快捷的信息檢索平臺,整合了校園網(wǎng)信息資源,實(shí)現了信息共享,對校園信息化建設起了很好的推進(jìn)作用。
經(jīng)過(guò)對系統測試運行期間性能的測試,信息檢索時(shí)間和精度都得到了較大的提升,信息檢索的廣度和深度也有了很大提高,滿(mǎn)足了校園網(wǎng)用戶(hù)的需要、今后的工作是在信息檢索功能的基礎上進(jìn)一步研究校園網(wǎng)輿情監測技術(shù),完善系統功能,在提高校園信息化程度的同時(shí)為建設積極向上的校園網(wǎng)絡(luò )文化起到較好的推動(dòng)作用。
參考文獻:
[1]王雪松lucene+nutch搜索引擎[m]北京:人民郵電出版社,2008
[2]邱哲,符滔滔,王雪松,開(kāi)發(fā)自己的搜索引擎lucellc+heritrix,北京:人民郵電出版社,2010
[3]oracle,oracle data integrator技術(shù)白皮書(shū),北京:oracle公司2008
[4]王洋oracle data integrator使用手冊,北京:神州數碼有限公司,2008
[5]劉期勇,基于lucene的多數據源全文檢索系統的設計與實(shí)現,重慶:重慶大學(xué),2008
[6]黃少林,王華,張玉紅,蔣一峰,基于lucene的索引系統的設計與實(shí)現,現代情報,2009,29(7):169-171
【淺談校園網(wǎng)多數據源信息檢索系統的設計與實(shí)現論文】相關(guān)文章:
多波束通信設備設計與實(shí)現論文07-04
淺談自動(dòng)化出卷系統的設計與實(shí)現論文07-03
淺談書(shū)籍設計的論文07-02
淺談品牌與設計論文07-03
淺談多媒體設計的論文07-03
淺談多媒體教學(xué)系統的設計與實(shí)現07-01
淺談如何實(shí)現班級的自主管理論文07-03
淺談基于ZigBee 嵌入式智能家居控制系統的設計與實(shí)現論文07-03
淺談建筑設計欣賞論文07-03