1.算(suàn)法。“算(suàn)法”如何與大(dà)數(shù)據相關?即使算(suàn)法是一個(gè)通(tōng)用術(shù)語,但(dàn)大(dà)數(shù)據分析使其在當代更受青睐和(hé)流行(xíng)。
?
2.分析。年末你(nǐ)可(kě)能會(huì)收到一份來(lái)自信用卡公司寄來(lái)的包含了全年所有(yǒu)交易記錄的年終報表。如果你(nǐ)有(yǒu)興趣進一步分析自己在食物、衣服、娛樂等方面具體(tǐ)花(huā)費占比呢?那(nà)你(nǐ)便是在做(zuò)“分析”了。你(nǐ)正從一堆原始數(shù)據中來(lái)吸取經驗,以幫助自己為(wèi)來(lái)年的消費做(zuò)出決策。如果你(nǐ)正在針對整個(gè)城市人(rén)群對Twitter或Facebook的帖子做(zuò)同樣的練習呢?那(nà)我們便是在討(tǎo)論大(dà)數(shù)據分析了。大(dà)數(shù)據分析的實質是利用大(dà)量數(shù)據來(lái)進行(xíng)推斷和(hé)講故事。大(dà)數(shù)據分析有(yǒu)3種不同到的類型,接下來(lái)便繼續本話(huà)題進行(xíng)依次討(tǎo)論。
3.描述性分析。剛剛如果你(nǐ)告訴我,去年你(nǐ)的信用卡消費在食物上(shàng)花(huā)費了25%、在服裝上(shàng)花(huā)費了35%、娛樂活動上(shàng)花(huā)費了20%、剩下的就是雜七雜八的事項,這種便是描述性分析。當然你(nǐ)還(hái)可(kě)以參考更多(duō)的細節。
4.預測分析。如果你(nǐ)根據過去5年的信用卡曆史記錄來(lái)進行(xíng)分析,并且劃分具有(yǒu)一定的連續性,則你(nǐ)可(kě)以高(gāo)概率預測明(míng)年将與過去幾年相差無幾。此處需要注意的細節是,這并不是“預測未來(lái)”,而是未來(lái)可(kě)能會(huì)發生(shēng)的“概率”。在大(dà)數(shù)據預測分析中,數(shù)據科學家(jiā)可(kě)能會(huì)使用類似機器(qì)學習、高(gāo)級的統計(jì)過程(後文将對這些(xiē)術(shù)語進行(xíng)介紹)等先進的技(jì)術(shù)去預測天氣、經濟變化等。
5.規範分析。沿用信用卡交易的案例,你(nǐ)可(kě)能想要找出哪方面的支出(級食品、服裝、娛樂等)對自己的整體(tǐ)支出産生(shēng)巨大(dà)的影(yǐng)響。規範分析建立在預測分析的基礎之上(shàng),包含了“行(xíng)動”記錄(例如減少(shǎo)食品、服裝、娛樂支出),并分析所得(de)結果來(lái)“規定”最佳類别以減少(shǎo)總體(tǐ)支出。你(nǐ)可(kě)以嘗試将其發散到大(dà)數(shù)據,并設想高(gāo)管們如何通(tōng)過查看各種行(xíng)動的影(yǐng)響來(lái)做(zuò)出數(shù)據驅動的決策。
6.批處理(lǐ)。雖然批量數(shù)據處理(lǐ)在大(dà)型機時(shí)代就早已出現,但(dàn)大(dà)數(shù)據交給它更多(duō)大(dà)數(shù)據集處理(lǐ),因此賦予了批處理(lǐ)更多(duō)的意義。對于一段時(shí)間(jiān)內(nèi)收集到的一組事務,批量數(shù)據處理(lǐ)為(wèi)處理(lǐ)大(dà)量數(shù)據提供了一種有(yǒu)效的方法。後文将介紹的Hadoop便是專注于批量數(shù)據處理(lǐ)。超越批處理(lǐ)的世界:流計(jì)算(suàn) 使用Spark SQL構建批處理(lǐ)程序。
7. Cassandra是由Apache Software Foundation管理(lǐ)的一款流行(xíng)的開(kāi)源數(shù)據庫管理(lǐ)系統。很(hěn)多(duō)大(dà)數(shù)據技(jì)術(shù)都歸功于Apache,其中Cassandra的設計(jì)初衷便是處理(lǐ)跨分布式服務器(qì)的大(dà)量數(shù)據。
8. 雲計(jì)算(suàn)。顯而易見雲計(jì)算(suàn)已經變得(de)無所不在,所以本文可(kě)能無須贅述,但(dàn)為(wèi)了文章的完整性還(hái)是佐以介紹。雲計(jì)算(suàn)的本質是在遠程服務器(qì)上(shàng)運行(xíng)的軟件和(hé)(/或)數(shù)據托管,并允許從互聯網上(shàng)的任何地方進行(xíng)訪問。
9. 集群計(jì)算(suàn)。它是一種利用多(duō)台服務器(qì)的彙集資源的“集群”來(lái)進行(xíng)計(jì)算(suàn)的奇特方式。在了解了更多(duō)技(jì)術(shù)之後,我們可(kě)能還(hái)會(huì)討(tǎo)論節點、集群管理(lǐ)層、負載平衡和(hé)并行(xíng)處理(lǐ)等。
10. 黑(hēi)暗數(shù)據。依我看來(lái),這個(gè)詞适用于那(nà)些(xiē)吓得(de)六神無主的高(gāo)級管理(lǐ)層們。從根本上(shàng)來(lái)說,黑(hēi)暗數(shù)據是指那(nà)些(xiē)被企業收集和(hé)處理(lǐ)但(dàn)又不用于任何有(yǒu)意義用途的數(shù)據,因此描述它是“黑(hēi)暗的”,它們可(kě)能永遠被埋沒。它們可(kě)能是社交網絡信息流、呼叫中心日志(zhì)、會(huì)議筆記,諸如此類。人(rén)們做(zuò)出了諸多(duō)估計(jì),在60-90%的所有(yǒu)企業數(shù)據都可(kě)能是“黑(hēi)暗數(shù)據”,但(dàn)無人(rén)真正知曉。
11. 數(shù)據湖(hú)。當我第一次聽(tīng)到這個(gè)詞的時(shí)候,我真的以為(wèi)有(yǒu)人(rén)在開(kāi)愚人(rén)節的玩笑。但(dàn)它真的是個(gè)術(shù)語!數(shù)據湖(hú)是一個(gè)原始格式的企業級數(shù)據的大(dà)型存儲庫。雖然此處討(tǎo)論的是數(shù)據湖(hú),但(dàn)有(yǒu)必要再一起討(tǎo)論下數(shù)據倉庫,因為(wèi)數(shù)據湖(hú)和(hé)數(shù)據倉庫在概念上(shàng)是極其相似的,都是企業級數(shù)據的存儲庫,但(dàn)在清理(lǐ)和(hé)與其他數(shù)據源集成之後的結構化格式上(shàng)有(yǒu)所區(qū)别。數(shù)據倉庫常用于常規數(shù)據(但(dàn)不完全)。據說數(shù)據湖(hú)能夠讓用戶輕松訪問企業級數(shù)據,用戶真正按需知道(dào)自己正在尋找的是什麽、如何處理(lǐ)并讓其智能化使用。擁抱開(kāi)源技(jì)術(shù)的前提——認識數(shù)據湖(hú) 你(nǐ)知道(dào)數(shù)據湖(hú)泊(DATA LAKE)嗎?
12. 數(shù)據挖掘。數(shù)據挖掘是指利用複雜的模式識别技(jì)術(shù)從大(dà)量數(shù)據中找到有(yǒu)意義的模式、提取見解。這與我們前文討(tǎo)論的使用個(gè)人(rén)數(shù)據做(zuò)分析的術(shù)語“分析”密切相關。為(wèi)了提取出有(yǒu)意義的模式,數(shù)據挖掘者使用統計(jì)學(是呀,好老的數(shù)學)、機器(qì)學習算(suàn)法和(hé)人(rén)工智能。
13.數(shù)據科學家(jiā)。我們談論的是一個(gè)如此熱門(mén)的職業!數(shù)據科學家(jiā)們可(kě)以通(tōng)過提取原始數(shù)據(難道(dào)是從前文所說的數(shù)據湖(hú)中提取的?),處理(lǐ)數(shù)據,然後提出新見解。數(shù)據科學家(jiā)所需具備的一些(xiē)技(jì)能與超人(rén)無異:分析、統計(jì)、計(jì)算(suàn)機科學、創造力、故事講述和(hé)理(lǐ)解業務環境。難怪他們能獲得(de)如此高(gāo)的薪水(shuǐ)報酬。
14.分布式文件系統。由于大(dà)數(shù)據太大(dà)而無法在單個(gè)系統上(shàng)進行(xíng)存儲,分布式文件系統提供一種數(shù)據存儲系統,方便跨多(duō)個(gè)存儲設備進行(xíng)大(dà)量數(shù)據的存放,并有(yǒu)助于降低(dī)大(dà)量數(shù)據存儲的成本和(hé)複雜度。
15. ETL。ETL分别是extract,transform,load的首字母縮寫,代表提取、轉化和(hé)加載的過程。 它具體(tǐ)是指“提取”原始數(shù)據,通(tōng)過數(shù)據清洗/修飾的方式進行(xíng)“轉化”以獲得(de) “适合使用”的數(shù)據,進而“加載”到合适的存儲庫中供系統使用的整個(gè)過程。盡管ETL這一概念源于數(shù)據倉庫,但(dàn)現在也适用于其它情景下的過程,例如在大(dà)數(shù)據系統中從外部數(shù)據源獲取/吸收數(shù)據。