數據挖掘讀書(shū)筆記

時(shí)間:2022-06-27 12:16:37 讀書(shū)筆記 我要投稿
  • 相關(guān)推薦

數據挖掘讀書(shū)筆記

  導語(yǔ):數據挖掘(Data Mining)是一項較新的數據庫技術(shù),它基于由日常積累的大量數據所構成的數據庫,從中發(fā)現潛在的、有價(jià)值的信息——稱(chēng)為知識,用于支持決策。以下小編為大家介紹數據挖掘讀書(shū)筆記文章,歡迎大家閱讀參考!

數據挖掘讀書(shū)筆記

  1、數據挖掘要解決的問(wèn)題

  可伸縮(算法在處理各種規模的數據時(shí)都有很好的性能。隨著(zhù)數據的增大,效率不會(huì )下降很快。)

  高維性(簡(jiǎn)單的說(shuō)就是多維數據的意思。平時(shí)我們經(jīng)常接觸的是一維數據或者可以寫(xiě)成表形式的二維數據,高維數據也可以類(lèi)推,不過(guò)維數較高的時(shí)候,直觀(guān)表示很難。)

  異種數據和復雜數據

  數據的所有權與分布(分布式數據挖掘:應付分布式海量數據的現代方法)

  非傳統的分析(傳統方法:基于一種假設-檢驗模式;數據挖掘分析-時(shí)機性樣本,而不是隨機樣本)

  2、數據挖掘任務(wù)

  1)預測任務(wù)(目標變量/因變量:被預測的屬性;說(shuō)明變量/自變量:用來(lái)做預測的屬性)

  2)描述任務(wù)

  A預測建模:分類(lèi)-預測離散的目標變量和回歸-預測連續的目標變量

  B關(guān)聯(lián)分析

  C聚類(lèi)分析

  D異常檢測(識別其特征顯著(zhù)不同于其他數據的觀(guān)測值。這樣的觀(guān)測值稱(chēng)為異常點(diǎn)或離群點(diǎn))

  3、屬性的四種類(lèi)型

  1)標稱(chēng)

  2)序數

  3)區間

  4)比率

 。ú紶栕兞浚築oolean Variable (布爾型變量) 是有兩種邏輯狀態(tài)的變量,它包含兩個(gè)值:真和假。如果在表達式中使用了布爾型變量,那么將根據變量值的真假而賦予整型值1或0。)

  數據挖掘讀書(shū)筆記2

  1. 確定業(yè)務(wù)對象

  清晰地定義出業(yè)務(wù)問(wèn)題,認清數據挖掘的目的是數據挖掘的重要一步.挖掘的最后結構是不可預測的,但要探索的問(wèn)題應是有預見(jiàn)的,為了數據挖掘而數據挖掘則帶有盲目性,是不會(huì )成功的.

  2. 數據準備

  1)數據清理

  消除噪聲或不一致數據。

  2)數據集成

  多種數據源可以組合在一起

  3)數據選擇

  搜索所有與業(yè)務(wù)對象有關(guān)的內部和外部數據信息,并從中選擇出適用于數據挖掘應用的數據.

  4)數據變換

  將數據轉換成一個(gè)分析模型.這個(gè)分析模型是針對挖掘算法建立的.建立一個(gè)真正適合挖掘算法的分析模型是數據挖掘成功的關(guān)鍵.

  3. 數據挖掘

  對所得到的經(jīng)過(guò)轉換的數據進(jìn)行挖掘.除了完善從選擇合適的挖掘算法外,其余一切工作都能自動(dòng)地完成.

  4. 結果分析

  解釋并評估結果.其使用的分析方法一般應作數據挖掘操作而定,通常會(huì )用到可視化技術(shù).

  5. 知識的同化

  將分析所得到的知識集成到業(yè)務(wù)信息系統的組織結構中去.

  3、 數據挖掘熱點(diǎn)

  8.1電子商務(wù)網(wǎng)站的數據挖掘

  在對網(wǎng)站進(jìn)行數據挖掘時(shí),所需要的數據主要來(lái)自于兩個(gè)方面:一方面是客戶(hù)的背景信息,此部分信息主要來(lái)自于客戶(hù)的登記表;而另外一部分數據主要來(lái)自瀏覽者的點(diǎn)擊流,此部分數據主要用于考察客戶(hù)的行為表現。但有的時(shí)候,客戶(hù)對自己的背景信息十分珍重,不肯把這部分信息填寫(xiě)在登記表上,這就會(huì )給數據分析和挖掘帶來(lái)不便。在這種情況之下,就不得不從瀏覽者的表現數據中來(lái)推測客戶(hù)的背景信息,進(jìn)而再加以利用。就分析和建立模型的技術(shù)和算法而言,網(wǎng)站的數據挖掘和原來(lái)的數據挖掘差別并不是特別大,很多方法和分析思想都可以運用。所不同的是網(wǎng)站的數據格式有很大一部分來(lái)自于點(diǎn)擊流,和傳統的數據庫格式有區別。因而對電子商務(wù)網(wǎng)站進(jìn)行數據挖掘所做的主要工作是數據準備。

  8.2生物基因的數據挖掘

  生物基因數據挖掘則完全屬于另外一個(gè)領(lǐng)域,在商業(yè)上很難講有多大的價(jià)值,但對于人類(lèi)卻受益非淺。例如,基因的組合千變萬(wàn)化,得某種病的'人的基因和正常人的基因到底差別多大?能否找出其中不同的地方,進(jìn)而對其不同之處加以改變,使之成為正;?這都需要數據挖掘技術(shù)的支持。對于生物信息或基因的數據挖掘和通常的數據挖掘相比,無(wú)論在數據的復雜程度、數據量還有分析和建立模型的算法而言,都要復雜得多。從分析算法上講,更需要一些新的和好的算法,F在還遠沒(méi)有達到成熟的地步。

  8.3文本的數據挖掘

  在現實(shí)世界中,可獲取的大部分信息是存儲在文本數據庫中的,由來(lái)自各種數據源的大量文檔組成。由于電子形式的信息量的飛速增長(cháng),文本數據庫得到飛速的發(fā)展。文檔數據庫中存儲最多的數據是所謂的半結構化數據(semistructure data),它既不是完全無(wú)結構的,也不是完全結構化的。在最近數據庫領(lǐng)域研究中已由大量有關(guān)半結構化數據的建模和實(shí)現方面的研究。而且,信息檢索技術(shù)已經(jīng)被用來(lái)處理費結構化文檔。傳統的信息檢索已經(jīng)不適應日益增長(cháng)的大量文本數據處理的需要。因此,文檔挖掘就成為數據挖掘中一個(gè)日益流行而重要的流行課題。

  8.4Web數據挖掘

  Web上有海量的數據信息,怎樣對這些數據進(jìn)行復雜的應用成了現今數據庫技術(shù)的研究熱點(diǎn)。數據挖掘就是從大量的數據中發(fā)現隱含的規律性的內容,解決數據的應用質(zhì)量問(wèn)題。充分利用有用的數據,廢棄虛偽無(wú)用的數據,是數據挖掘技術(shù)的最重要的應用。顯然,面向Web的數據挖掘比面向單個(gè)數據倉庫的數據挖掘要復雜得多。因為它面臨如下諸多挑戰:

  1、 對于有效的數據倉庫和數據挖掘而言,Web的存儲量實(shí)在是太龐大了。

  2、 Web頁(yè)面的復雜性遠比任何傳統的文本文檔復雜得多。

  3、 Web是一個(gè)動(dòng)態(tài)性極強得信息源。

  4、 Web面對的是一個(gè)廣泛形形色色的用戶(hù)群體。

  5、 Web上的信息只有很小的一部分是相關(guān)的或有用的。

  一般的,Web數據挖掘可分為三類(lèi):Web內容挖掘(Web content mining),Web結構挖掘(Web structure mining),Web使用紀律挖掘(Web usage mining)。

  面向Web的數據挖掘是一項復雜的技術(shù),由于上述種種挑戰的存在,因而面向Web的數據挖掘成了一個(gè)難以解決的問(wèn)題。而XML的出現為解決Web數據挖掘的難題帶來(lái)了機會(huì )。由于XML能夠使不同來(lái)源的結構化的數據很容易地結合在一起,因而使搜索多樣的不兼容的數據庫能夠成為可能,從而為解決Web數據挖掘難題帶來(lái)了希望。XML的擴展性和靈活性允許XML描述不同種類(lèi)應用軟件中的數據,從而能描述搜集的Web頁(yè)中的數據記錄。同時(shí),由于基于XML的數據是自我描述的,數據不需要有內部描述就能被交換和處理。作為表示結構化數據的一個(gè)工業(yè)標準,XML為組織、軟件開(kāi)發(fā)者、Web站點(diǎn)和終端使用者提供了許多有利條件。相信在以后,隨著(zhù)XML作為在Web上交換數據的一種標準方式的出現,面向Web的數據挖掘將會(huì )變得非常輕松。

  4、 數據挖掘的未來(lái)

  當前,DMKD研究方興未艾,其研究與開(kāi)發(fā)的總體水平相當于數據庫技術(shù)在70年代所處的地位,迫切需要類(lèi)似于關(guān)系模式、DBMS系統和SQL查詢(xún)語(yǔ)言等理論和方法的指導,才能使DMKD的應用得以普遍推廣。DMKD的研究還會(huì )形成更大的高潮,研究焦點(diǎn)可能會(huì )集中到以下幾個(gè)方面:

  發(fā)現語(yǔ)言的形式化描述,即研究專(zhuān)門(mén)用于知識發(fā)現的數據挖掘語(yǔ)言,也許會(huì )像SQL語(yǔ)言一樣走向形式化和標準化。

  尋求數據挖掘過(guò)程中的可視化方法,使知識發(fā)現的過(guò)程能夠被用戶(hù)理解,也便于在知識發(fā)現的過(guò)程中進(jìn)行人機交互。

  研究在網(wǎng)絡(luò )環(huán)境下的數據挖掘技術(shù)(WebMining),特別是在因特網(wǎng)上建立DMKD服務(wù)器,并且與數據庫服務(wù)器配合,實(shí)現WebMining。

  加強對各種非結構化數據的開(kāi)采(DataMining for Audio & Video),如對文本數據、圖形數據、視頻圖像數據、聲音數據乃至綜合多媒體數據的開(kāi)采。

  交互式發(fā)現。

  知識的維護更新。

  但是,不管怎樣,需求牽引與市場(chǎng)推動(dòng)是永恒的,DMKD將首先滿(mǎn)足信息時(shí)代用戶(hù)的急需,大量的基于DMKD的決策支持軟件產(chǎn)品將會(huì )問(wèn)世。只有從數據中有效地提取信息,從信息中及時(shí)地發(fā)現知識,才能為人類(lèi)的思維決策和戰略發(fā)展服務(wù)。也只有到那時(shí),數據才能夠真正成為與物質(zhì)、能源相媲美的資源,信息時(shí)代才會(huì )真正到來(lái)。

99久久精品免费看国产一区二区三区|baoyu135国产精品t|40分钟97精品国产最大网站|久久综合丝袜日本网|欧美videosdesexo肥婆