非結構化WEB數據庫與圖書(shū)館多媒體信息資源的組織利用論文

時(shí)間:2022-06-25 00:32:34 數據庫操作系統 我要投稿
  • 相關(guān)推薦

非結構化WEB數據庫與圖書(shū)館多媒體信息資源的組織利用論文

  【內容提要】針對傳統關(guān)系數據庫在處理非結構化多媒體WEB信息中所存在的問(wèn)題,結合圖書(shū)館多媒體數據庫的特點(diǎn)及特定技術(shù)要求,介紹了非結構化WEB數據庫的技術(shù)特點(diǎn)及其在組織與利用館藏多媒體信息資源中的作用。

非結構化WEB數據庫與圖書(shū)館多媒體信息資源的組織利用論文

  【摘要題】信息資源建設

  【關(guān)鍵詞】非結構化WEB數據庫/多媒體/信息資源/組織利用/關(guān)系數據庫

  【正文】

  1 非結構化WEB數據庫簡(jiǎn)介

  非結構化WEB數據庫,是指其字段長(cháng)度可變,并且每個(gè)字段的記錄又可以由可重復或不可重復的子字段構成的基于INTERNET、INTRANET的數據庫,用它不僅可以處理結構化數據(如數字、符號等信息)而且更適合處理非結構化數據(全文文本、圖象、聲音、影視、超媒體等信息)并在互聯(lián)網(wǎng)上發(fā)布。非結構化WEB數據庫主要是針對非結構化數據而產(chǎn)生的,與以往流行的關(guān)系數據庫相比,其最大區別在于它突破了關(guān)系數據庫結構定義不易改變和數據定長(cháng)的限制,支持重復字段、子字段以及變長(cháng)字段并實(shí)現了對變長(cháng)數據和重復字段進(jìn)行處理和數據項的變長(cháng)存儲管理,在處理連續信息(包括全文信息)和非結構化信息(包括各種多媒體信息)中有著(zhù)傳統關(guān)系型數據庫所無(wú)法比擬的優(yōu)勢。

  2 圖書(shū)館多媒體信息資源的特點(diǎn)及組織利用中的技術(shù)要求

  2.1 圖書(shū)館多媒體信息的數據量非常大,象館藏影視資料和各種多媒體教育資料,其動(dòng)態(tài)圖象信號,每秒可達數兆字節,一段幾分鐘的MP3音樂(lè )也有幾兆字節,即使經(jīng)過(guò)壓縮、也十分巨大。如何對多媒體海量數據進(jìn)行有效地組織、存儲并構成WEB數據庫提供給用戶(hù)網(wǎng)上使用,技術(shù)要求很高。

  2.2 館藏多媒體信息的數據類(lèi)型很多,包括各種圖文數據、聲音數據、影視數據、超媒體數據、多種格式的隨書(shū)光盤(pán)等等,其數據長(cháng)度不固定,結構上的差異大,使得處理這些數據十分困難,要求數據庫既能夠處理可變長(cháng)度字段又能夠處理可重復的子字段。

  2.3 多媒體信息處理在時(shí)間上要求很高,多媒體信息中的聲音和動(dòng)態(tài)圖像對時(shí)間特別敏感,在使用這些信息時(shí),必須保證其時(shí)間上的要求,否則將會(huì )使這些信息失真甚至變得毫無(wú)意義。

  2.4 開(kāi)發(fā)利用館藏多媒體信息資源經(jīng)常要多種信息集成描述,比如某種多媒體,既有圖像,又有聲音,還有文字說(shuō)明,這樣就會(huì )改變傳統的數據庫操作形式和數據庫接口,尤其對圖文并茂的數據庫的建立和查詢(xún),需要統一語(yǔ)義描述。

  基于多媒體信息資源的上述特點(diǎn),要想使館藏豐富的多媒體信息資源得到充分利用,滿(mǎn)足信息用戶(hù)不斷增長(cháng)的信息需求,對多媒體信息處理提出了不同于普通信息處理技術(shù)的新要求:

  (1) 多媒體數據庫元數據存儲技術(shù)要求

  我們知道音頻、圖象、視頻等多媒體信息數據是非結構化的,它們不能用簡(jiǎn)單的數字解析式表示,多媒體數據庫必須取得基于這些媒體對象內容及信息特征的解釋?zhuān)拍芡瓿纱鎯皯,這些解釋就稱(chēng)為元數據,通過(guò)對元數據的歸類(lèi)、整理、實(shí)現標準化的存儲是多媒體信息資源組織利用的關(guān)鍵。多媒體數據庫元數據存儲技術(shù)要求包括:文本元數據的存取,語(yǔ)音元數據的存取,圖象元數據的存取,視頻元數據的存取等方面的技術(shù)要求。

  (2) 多媒體數據庫結構字段設計與數據記錄處理方面的要求

  a.允許可變長(cháng)字段、可重復字段、子字段和MARC字段。

  b.數據庫記錄的數目與記錄長(cháng)度,字段數目與字段長(cháng)度,字段可重復次數不應受到限制。

  c.允許建立可以快速存取的倒排文件和多媒體、多語(yǔ)言記錄表。

  d.數據庫可自動(dòng)接受和產(chǎn)生MARC和ISO2709記錄格式的文件,并且滿(mǎn)足對MEDADATA數據模式的支持功能。

  (3) 基于WEB的多媒體信息檢索與信息發(fā)布的技術(shù)要求

  隨著(zhù)用戶(hù)對于信息需求的大量增加,以及對于多媒體信息的實(shí)效性要求,基于WEB的數據庫信息存儲的檢索越來(lái)越傾向于多媒體全文信息檢索的查詢(xún)語(yǔ)言,并且對于檢索結果的需求也側重于多媒體全文信息的獲取。與此同時(shí),WEB數據庫的信息發(fā)布形式開(kāi)始更多地過(guò)渡到通過(guò)網(wǎng)絡(luò )瀏覽器以多媒體電子文檔的方式(B/S)傳輸給網(wǎng)上用戶(hù)。也要求利用多媒體WEB傳輸技術(shù),向用戶(hù)提供主動(dòng)的特定多媒體信息的推送服務(wù)。

  3 非結構化WEB數據庫的特點(diǎn)及其在組織與利用多媒體信息資源中的作用

  3.1 豐富的數據類(lèi)型與靈活的數據結構,滿(mǎn)足多種類(lèi)型館藏多媒體數據結構組織

  根據非結構化多媒體數據信息的特殊性,非結構化WEB數據庫在進(jìn)行存儲和管理多媒體信息時(shí),整個(gè)數據庫的管理機制擯棄了傳統結構化關(guān)系數據庫對于信息采取定長(cháng)和結構化定義和管理的局限,它從多媒體數據模型入手,采用子字段、多值字段以及變長(cháng)字段的機制,允許創(chuàng )建許多不同類(lèi)型的非結構化或任意格式的字段,從而突破了關(guān)系數據庫非常嚴格的表結構,解決了關(guān)系數據庫模型過(guò)于簡(jiǎn)單,不便于表達復雜嵌套的問(wèn)題。非結構化WEB數據庫在數據類(lèi)型上不僅支持字符型、數值型數據,而且由于具有很強的外部文件支持功能,使其可以支持如超長(cháng)文本、圖像、聲音、動(dòng)畫(huà)等多種多媒體擴展數據類(lèi)型。與傳統關(guān)系數據庫相同之處是非結構化WEB數據庫的數據結構也是建立在二維表的基礎之上的,但它與關(guān)系數據庫不同的是:(1)非結構化WEB數據庫二維表的屬性長(cháng)度是不可變的,在列的維度上可以隨意擴展,這就能較好地滿(mǎn)足多媒體數據處理時(shí),需要靈活的可變長(cháng)字段的要求。(2)非結構化WEB數據庫由于支持重復字段、子字段,使其可以在數據庫記錄中實(shí)現二維嵌套,解決了非結構化多媒體數據結構復雜、可能存在重復字段和多個(gè)嵌套子字段的問(wèn)題。(3)非結構化WEB數據庫一個(gè)字段可以存放關(guān)系數據庫的一張表,它可以在一張表中壓縮關(guān)系數據庫中一對多的關(guān)系,因此利用非結構化WEB數據庫能很好地實(shí)現多種多媒體數據庫的集中組織與管理。

  3.2 基于廣域網(wǎng)的圖書(shū)館海量多媒體數據庫存儲管理機制的實(shí)現

  圖書(shū)館多媒體信息資源數據庫是海量數據庫,支持基于廣域網(wǎng)的海量多媒體信息存儲和管理是非結構化WEB數據庫管理系統的主要功能之一,不僅存儲數據量大,而且存取速度快,同時(shí)檢索功能強、檢索速度快,在檢索速度方面一般不受信息量大的影響。以IBASE非結構化數據庫為例,每個(gè)數據庫最大的記錄數可達到1000萬(wàn)條,每條記錄的最大長(cháng)度可達64000字節。每個(gè)數據庫最多可有800個(gè)字段。

  3.3 利用多種索引方式,實(shí)現多媒體全文檢索、媒體特征檢索等多種檢索策略

  館藏多媒體信息資源組織利用的關(guān)鍵是要實(shí)現多種方式的多媒體全文檢索,而要實(shí)現多種檢索方式,建立索引是前提,傳統關(guān)系數據庫支持的索引只限于單字段索引、復合索引等幾種方式,受其限制,關(guān)系數據庫檢索能力也受到很大限制。非結構化WEB數據庫由于有著(zhù)靈活的數據結構,在其底層存儲機制變革的基礎上,采用先進(jìn)的索引倒排擋技術(shù),使它支持的索引方式比關(guān)系數據

  庫要豐富得多,可以滿(mǎn)足極其復雜檢索的需要,實(shí)現對于海量多媒體信息的快速全文檢索功能,它支持字段索引、子字段索引和全文索引甚至可以支持人工標引索引,中英文混合索引等方式。配合非結構化數據庫的格式化語(yǔ)言,可以對同一字段進(jìn)行若干種不同的索引,以滿(mǎn)足特殊檢索的需求,實(shí)現多種檢索策略。例如IBASE非結構化數據庫管理系統目前支持8種不同的索引方式,可以涵蓋所有關(guān)系數據庫所提供的90%以上的檢索方式,同時(shí)還提供了包括簡(jiǎn)單檢索、組合檢索、字段檢索、右截斷檢索、全文檢索、擴展檢索、相關(guān)檢索、集合檢索、媒體特征檢索等等大量關(guān)系數據庫所不具備的檢索方式和檢索策略。

  3.4 集成WEB服務(wù)器和數據庫服務(wù)器,實(shí)現多媒體網(wǎng)絡(luò )信息發(fā)布與多種服務(wù)功能

  關(guān)系數據庫在基于因特網(wǎng)應用時(shí),由于結構模型等原因的限制,不能與因特網(wǎng)完全地融合,需在WEB服務(wù)器與數據庫之間加入大量的中間件,從而在無(wú)形中加大了數據庫基于網(wǎng)絡(luò )應用的難度,給數據庫在因特網(wǎng)應用帶來(lái)了新的網(wǎng)絡(luò )瓶頸,應用服務(wù)器由于與數據庫頻繁交互,其本身的效率和數據庫檢索效率易造成因特網(wǎng)應用的阻塞。非結構化數據庫模型全部是基于因特網(wǎng),采用WEB服務(wù)器和數據庫服務(wù)器緊密集成的方法,可以將目前傳統數據庫廠(chǎng)商由C/S結構擴展來(lái)的瀏覽器/WEB服務(wù)器加應用服務(wù)器/數據庫服務(wù)的三層體系結構,集成瀏覽器/WEB數據庫發(fā)布系統(B/S)的因特網(wǎng)計算結構,使多媒體數據庫系統成為WEB的一個(gè)重要有機組成部分,實(shí)現在單一平臺上融合所有多媒體數據庫和應用服務(wù)器的功能,這不僅大大減少了用戶(hù)對多媒體數據庫額外硬件、中間件和其他昂貴的集成業(yè)務(wù)的需求,而且極大地縮短了用戶(hù)開(kāi)發(fā)和采用基于因特網(wǎng)應用的時(shí)間,有利于用戶(hù)把更多時(shí)間用于多媒體信息資源的開(kāi)發(fā)和描述,非結構化數據庫管理系統可以為系統建設者提供快速有效的方法實(shí)現基于WEB的多媒體數據庫的建立和信息檢索發(fā)布,實(shí)現網(wǎng)上多媒體信息檢索、在線(xiàn)點(diǎn)播、閱讀,圖書(shū)館多媒體資源聯(lián)合編目和聯(lián)合建庫。同時(shí),利用非結構化WEB數據庫還可以實(shí)現許多新的多媒體信息服務(wù)功能,如采用多媒體信息推送技術(shù)和郵件服務(wù)器功能實(shí)現定題服務(wù)和個(gè)性化多媒體信息服務(wù)。

  【參考文獻】

  1.朱繼團.非結構化類(lèi)型網(wǎng)頁(yè)的全文檢索

  系統設計.現代計算機,1998(9)

  2.張忠友.基于IBASE非結構化網(wǎng)絡(luò )數據庫的IPAC圖書(shū)館網(wǎng)上資源發(fā)布與檢索系統.中國信息導報,2001(2)

  3.張忠友.數字化圖書(shū)館與非結構化數據庫.中國信息導報,2001(6)

  4.李慧,顏顯森.數據庫技術(shù)發(fā)展的新方向——非結構化數據庫.情報理論與實(shí)踐,2001(4)

  5.朱斌,宋先忠.非結構化數據的信息服務(wù)系統設計方法.計算機時(shí)代,2001(7)

  6.田辛玲,劉沖嬌.電子化圖書(shū)館多媒體文獻服務(wù)系統的建設與實(shí)施.現代情報,2002(6)

  7.蔡清萬(wàn).多媒體技術(shù)與數字圖書(shū)館建設.圖書(shū)館工作與研究,2001(2)

  8.李娟.多媒體數據庫開(kāi)發(fā).情報理論與實(shí)踐,2001(1)

【非結構化WEB數據庫與圖書(shū)館多媒體信息資源的組織利用論文】相關(guān)文章:

多媒體數據庫論文07-02

利用多媒體指導小學(xué)生習作的論文06-30

網(wǎng)絡(luò )環(huán)境下專(zhuān)業(yè)圖書(shū)館信息資源建設論文07-03

Web of Science數據庫中沒(méi)有的論文就不是SCI檢索的論文么?07-03

多媒體在小學(xué)語(yǔ)文教學(xué)中的有效利用論文07-04

計算機課利用多媒體技術(shù)論文07-03

利用多媒體提高小學(xué)數學(xué)課堂效率的論文06-29

如何利用非信息技術(shù)為教學(xué)添加活力的論文07-02

探究高校圖書(shū)館多媒體微服務(wù)模式論文07-03

多媒體論文06-22

99久久精品免费看国产一区二区三区|baoyu135国产精品t|40分钟97精品国产最大网站|久久综合丝袜日本网|欧美videosdesexo肥婆