大數據的專(zhuān)用術(shù)語(yǔ)

時(shí)間:2022-07-11 04:33:24 計算機/互聯(lián)網(wǎng)/通信 我要投稿
  • 相關(guān)推薦

關(guān)于大數據的專(zhuān)用術(shù)語(yǔ)

  如今,大數據已成為一項業(yè)務(wù)上優(yōu)先考慮的工作任務(wù),因為它能夠對全球整合經(jīng)濟時(shí)代的商務(wù)產(chǎn)生深遠的影響。下面是小編分享的,歡迎大家閱讀!

  【大數據專(zhuān)用術(shù)語(yǔ)】

  1.算法!八惴ā比绾闻c大數據相關(guān)?即使算法是一個(gè)通用術(shù)語(yǔ),但大數據分析使其在當代更受青睞和流行。

  2.分析。年末你可能會(huì )收到一份來(lái)自信用卡公司寄來(lái)的包含了全年所有交易記錄的年終報表。如果你有興趣進(jìn)一步分析自己在食物、衣服、娛樂(lè )等方面具體花費占比呢?那你便是在做“分析”了。你正從一堆原始數據中來(lái)吸取經(jīng)驗,以幫助自己為來(lái)年的消費做出決策。如果你正在針對整個(gè)城市人群對Twitter或Facebook的帖子做同樣的練習呢?那我們便是在討論大數據分析了。大數據分析的實(shí)質(zhì)是利用大量數據來(lái)進(jìn)行推斷和講故事。大數據分析有3種不同到的類(lèi)型,接下來(lái)便繼續本話(huà)題進(jìn)行依次討論。

  3.描述性分析。剛剛如果你告訴我,去年你的信用卡消費在食物上花費了25%、在服裝上花費了35%、娛樂(lè )活動(dòng)上花費了20%、剩下的就是雜七雜八的事項,這種便是描述性分析。當然你還可以參考更多的細節。

  4.預測分析。如果你根據過(guò)去5年的信用卡歷史記錄來(lái)進(jìn)行分析,并且劃分具有一定的連續性,則你可以高概率預測明年將與過(guò)去幾年相差無(wú)幾。此處需要注意的細節是,這并不是“預測未來(lái)”,而是未來(lái)可能會(huì )發(fā)生的“概率”。在大數據預測分析中,數據科學(xué)家可能會(huì )使用類(lèi)似機器學(xué)習、高級的統計過(guò)程(后文將對這些術(shù)語(yǔ)進(jìn)行介紹)等先進(jìn)的技術(shù)去預測天氣、經(jīng)濟變化等。

  5.規范分析。沿用信用卡交易的案例,你可能想要找出哪方面的支出(級食品、服裝、娛樂(lè )等)對自己的整體支出產(chǎn)生巨大的影響。規范分析建立在預測分析的基礎之上,包含了“行動(dòng)”記錄(例如減少食品、服裝、娛樂(lè )支出),并分析所得結果來(lái)“規定”最佳類(lèi)別以減少總體支出。你可以嘗試將其發(fā)散到大數據,并設想高管們如何通過(guò)查看各種行動(dòng)的影響來(lái)做出數據驅動(dòng)的決策。

  6.批處理。雖然批量數據處理在大型機時(shí)代就早已出現,但大數據交給它更多大數據集處理,因此賦予了批處理更多的意義。對于一段時(shí)間內收集到的一組事務(wù),批量數據處理為處理大量數據提供了一種有效的方法。后文將介紹的Hadoop便是專(zhuān)注于批量數據處理。

  7. Cassandra是由Apache Software Foundation管理的一款流行的開(kāi)源數據庫管理系統。很多大數據技術(shù)都歸功于A(yíng)pache,其中Cassandra的設計初衷便是處理跨分布式服務(wù)器的大量數據。

  8. 云計算。顯而易見(jiàn)云計算已經(jīng)變得無(wú)所不在,所以本文可能無(wú)須贅述,但為了文章的完整性還是佐以介紹。云計算的本質(zhì)是在遠程服務(wù)器上運行的軟件和(/或)數據托管,并允許從互聯(lián)網(wǎng)上的任何地方進(jìn)行訪(fǎng)問(wèn)。

  9. 集群計算。它是一種利用多臺服務(wù)器的匯集資源的“集群”來(lái)進(jìn)行計算的奇特方式。在了解了更多技術(shù)之后,我們可能還會(huì )討論節點(diǎn)、集群管理層、負載平衡和并行處理等。

  10. 黑暗數據。依我看來(lái),這個(gè)詞適用于那些嚇得六神無(wú)主的高級管理層們。從根本上來(lái)說(shuō),黑暗數據是指那些被企業(yè)收集和處理但又不用于任何有意義用途的數據,因此描述它是“黑暗的”,它們可能永遠被埋沒(méi)。它們可能是社交網(wǎng)絡(luò )信息流、呼叫中心日志、會(huì )議筆記,諸如此類(lèi)。人們做出了諸多估計,在60-90%的所有企業(yè)數據都可能是“黑暗數據”,但無(wú)人真正知曉。

  11. 數據湖。當我第一次聽(tīng)到這個(gè)詞的時(shí)候,我真的以為有人在開(kāi)愚人節的玩笑。但它真的是個(gè)術(shù)語(yǔ)!數據湖是一個(gè)原始格式的企業(yè)級數據的大型存儲庫。雖然此處討論的是數據湖,但有必要再一起討論下數據倉庫,因為數據湖和數據倉庫在概念上是極其相似的,都是企業(yè)級數據的存儲庫,但在清理和與其他數據源集成之后的結構化格式上有所區別。數據倉庫常用于常規數據(但不完全)。據說(shuō)數據湖能夠讓用戶(hù)輕松訪(fǎng)問(wèn)企業(yè)級數據,用戶(hù)真正按需知道自己正在尋找的是什么、如何處理并讓其智能化使用。

  12. 數據挖掘。數據挖掘是指利用復雜的模式識別技術(shù)從大量數據中找到有意義的模式、提取見(jiàn)解。這與我們前文討論的使用個(gè)人數據做分析的術(shù)語(yǔ)“分析”密切相關(guān)。為了提取出有意義的模式,數據挖掘者使用統計學(xué)(是呀,好老的數學(xué))、機器學(xué)習算法和人工智能。

  13.數據科學(xué)家。我們談?wù)摰氖且粋(gè)如此熱門(mén)的職業(yè)!數據科學(xué)家們可以通過(guò)提取原始數據(難道是從前文所說(shuō)的數據湖中提取的?),處理數據,然后提出新見(jiàn)解。數據科學(xué)家所需具備的一些技能與超人無(wú)異:分析、統計、計算機科學(xué)、創(chuàng )造力、故事講述和理解業(yè)務(wù)環(huán)境。難怪他們能獲得如此高的薪水報酬。

  14.分布式文件系統。由于大數據太大而無(wú)法在單個(gè)系統上進(jìn)行存儲,分布式文件系統提供一種數據存儲系統,方便跨多個(gè)存儲設備進(jìn)行大量數據的存放,并有助于降低大量數據存儲的成本和復雜度。

  15. ETL。ETL分別是extract,transform,load的首字母縮寫(xiě),代表提取、轉化和加載的過(guò)程。 它具體是指“提取”原始數據,通過(guò)數據清洗/修飾的方式進(jìn)行“轉化”以獲得 “適合使用”的數據,進(jìn)而“加載”到合適的存儲庫中供系統使用的整個(gè)過(guò)程。盡管ETL這一概念源于數據倉庫,但現在也適用于其它情景下的過(guò)程,例如在大數據系統中從外部數據源獲取/吸收數據。

  16. Hadoop。人們一想起大數據就能立即想到Hadoop。 Hadoop(擁有可愛(ài)的大象LOGO)是一個(gè)開(kāi)源軟件框架,主要組成部分是Hadoop分布式文件系統(HDFS),Hadoop部署了分布式硬件以支持大型數據集的存儲、檢索和分析。如果你真的想給別人留下深刻的印象,還可以談?wù)刌ARN(Yet Another Resource Schedule,另一個(gè)資源調度器),正如其名,它也是一個(gè)資源調度器。我由衷佩服這些為程序命名的人。為Hadoop命名的Apache基金會(huì )還想出了Pig,Hive和Spark(沒(méi)錯,它們都是各種軟件的名稱(chēng))。這些名字難道不讓你感到印象深刻嗎?

  17. 內存計算。一般來(lái)說(shuō),任何可以在不訪(fǎng)問(wèn)I / O的情況下進(jìn)行的計算預計會(huì )比需要訪(fǎng)問(wèn)I/O的速度更快。內存內計算是一種能夠將工作數據集完全轉移到集群的集體內存中、并避免了將中間計算寫(xiě)入磁盤(pán)的技術(shù)。Apache Spark便是一種內存內計算系統,它與I / O相比,在像Hadoop MapReduce這樣的系統上綁定具有巨大的優(yōu)勢。

  18. IOT。最新的流行語(yǔ)是物聯(lián)網(wǎng)(Internet of things,簡(jiǎn)稱(chēng)IOT)。IOT是通過(guò)互聯(lián)網(wǎng)將嵌入式對象(傳感器、可穿戴設備、汽車(chē)、冰箱等)中的計算設備互連在一起,并且能夠發(fā)送/接收數據。IOT產(chǎn)生了大量的數據,這為呈現大數據分析提供了更多的機會(huì )。

  19.機器學(xué)習。機器學(xué)習是為了設計一種基于提供的數據能夠進(jìn)行不斷學(xué)習、調整、改進(jìn)的系統的設計方法。機器使用預測和統計的算法進(jìn)行學(xué)習并專(zhuān)注于實(shí)現“正確的”行為模式和簡(jiǎn)見(jiàn)解,隨著(zhù)越來(lái)越多的數據注入系統它還在不斷進(jìn)行優(yōu)化改進(jìn)。典型的應用有欺詐檢測、在線(xiàn)個(gè)性化推薦等。

  20.MapReduce。MapReduce的概念可能會(huì )有點(diǎn)混亂,但讓我試一試。MapReduce是一個(gè)編程模型,最好的理解方法是將Map和Reduce是看作兩個(gè)獨立的單元。在這種情況下,編程模型首先將大數據的數據集分成幾個(gè)部分(技術(shù)術(shù)語(yǔ)上是稱(chēng)作“元組”,但本文并不想太過(guò)技術(shù)性),因此可以部署到不同位置的`不同計算機上(即前文所述的集群計算),這些本質(zhì)上是Map的組成部分。接下來(lái)該模型收集到所有結果并將“減少”到同一份報告中。 MapReduce的數據處理模型與hadoop的分布式文件系統相輔相成。

  21.NoSQL。乍一聽(tīng)這像是針對傳統關(guān)系型數據庫管理系統(RDBMS)的面向對象的SQL(Structured Query Language, 結構化查詢(xún)語(yǔ)言)的抗議,其實(shí)NoSQL代表的是NOT ONLY SQL,意即“不僅僅是SQL”。 NoSQL實(shí)際上是指被用來(lái)處理大量非結構化、或技術(shù)上被稱(chēng)作“圖表”(例如關(guān)系型數據庫的表)等數據的數據庫管理系統。NoSQL數據庫一般非常適用于大型數據系統,這得益于它們的靈活性以及大型非結構化數據庫所必備的分布式結構。

  22.R語(yǔ)言。有人能想到比這個(gè)編程語(yǔ)言更糟糕的名字嗎?是的,’R’是一門(mén)在統計計算中表現非常優(yōu)異的編程語(yǔ)言。如果你連’R’都不知道,那你就不是數據科學(xué)家。(如果你不知道’R’,就請不要把那些糟糕的代碼發(fā)給我了)。這就是在數據科學(xué)中最受歡迎的語(yǔ)言之一的R語(yǔ)言。

  23. Spark(Apache Spark)。Apache Spark是一種快速的內存內數據處理引擎,它可以高效執行需要快速迭代訪(fǎng)問(wèn)數據集的流、機器學(xué)習或SQL工作負載。Spark通常比我們前文討論的MapReduce快很多。

  24.流處理。流處理旨在通過(guò)“連續”查詢(xún)對實(shí)時(shí)和流數據進(jìn)行操作。結合流分析(即在流內同時(shí)進(jìn)行連續計算數學(xué)或統計分析的能力),流處理解決方案可以被用來(lái)實(shí)時(shí)處理非常大的數據。

  25. 結構化和非結構化數據。這是大數據5V中的“Variety”多樣性。結構化數據是能夠放入關(guān)系型數據庫的最基本的數據類(lèi)型,通過(guò)表的組織方式可以聯(lián)系到任何其他數據。非結構化數據則是所有不能直接存入關(guān)系數據庫中的數據,例如電子郵件、社交媒體上的帖子、人類(lèi)錄音等。


【大數據的專(zhuān)用術(shù)語(yǔ)】相關(guān)文章:

專(zhuān)用介紹信04-14

網(wǎng)站分析專(zhuān)用名詞07-09

元旦專(zhuān)用文案11-17

企業(yè)專(zhuān)用合同02-23

商務(wù)接待禮儀專(zhuān)業(yè)術(shù)語(yǔ)要求06-10

數據調研報告06-27

律師調查專(zhuān)用介紹信05-07

情人節飯店專(zhuān)用文案02-07

中秋節專(zhuān)用問(wèn)候語(yǔ)11-24

2023情人節飯店專(zhuān)用文案01-31

99久久精品免费看国产一区二区三区|baoyu135国产精品t|40分钟97精品国产最大网站|久久综合丝袜日本网|欧美videosdesexo肥婆