大數(shù)據(jù)領(lǐng)域的12大工具,試試看哪個(gè)更好用
譯文【51CTO.com快譯】大數(shù)據(jù)工具讓企業(yè)能夠從數(shù)據(jù)倉(cāng)庫(kù)獲得洞察力,從而在數(shù)據(jù)驅(qū)動(dòng)的業(yè)務(wù)環(huán)境中提供重要的競(jìng)爭(zhēng)優(yōu)勢(shì)。
為了滿足旺盛需求,大數(shù)據(jù)工具在迅速遍地開(kāi)花。在大數(shù)據(jù)這一概念和業(yè)務(wù)戰(zhàn)略出現(xiàn)以來(lái)的十年間,市面上出現(xiàn)了成千上萬(wàn)執(zhí)行各種任務(wù)和流程的工具,它們都承諾可為你節(jié)省時(shí)間和資金,發(fā)掘業(yè)務(wù)洞察力從而實(shí)現(xiàn)創(chuàng)收。顯然,一個(gè)不斷增長(zhǎng)的市場(chǎng)呈現(xiàn)在大數(shù)據(jù)分析工具的面前。
其中許多工具一開(kāi)始就像最初的大數(shù)據(jù)軟件框架Hadoop那樣是開(kāi)源項(xiàng)目,但后來(lái)商業(yè)公司迅速涌現(xiàn),為開(kāi)源產(chǎn)品提供新工具或商業(yè)支持和開(kāi)發(fā)。
從中進(jìn)行遴選可能很困難,尤其是許多大數(shù)據(jù)工具用途單一,而你可以用大數(shù)據(jù)處理許多不同的任務(wù),所以你的分析工具箱會(huì)塞得滿滿當(dāng)當(dāng)。本文我們列出了市面上主要的大數(shù)據(jù)分析工具,分三大?類(lèi)別來(lái)介紹。
主要的大數(shù)據(jù)工具
如前所述,大數(shù)據(jù)工具往往屬于單一用途類(lèi)別,而使用大數(shù)據(jù)有多種方式。所以我們將按類(lèi)別細(xì)分,然后討論每個(gè)類(lèi)別的分析工具。
一、大數(shù)據(jù)工具:數(shù)據(jù)存儲(chǔ)和管理
大數(shù)據(jù)完全始于數(shù)據(jù)存儲(chǔ),也就是說(shuō)始于大數(shù)據(jù)框架Hadoop。它是Apache基金會(huì)運(yùn)行的一種開(kāi)源軟件框架,用于在大眾化計(jì)算機(jī)集群上分布式存儲(chǔ)非常大的數(shù)據(jù)集。
很顯然,由于大數(shù)據(jù)需要大量的信息,存儲(chǔ)至關(guān)重要。但除了存儲(chǔ)外,還需要某種方式將所有這些數(shù)據(jù)匯集成某種格式化/治理結(jié)構(gòu),從而獲得洞察力。因此,大數(shù)據(jù)存儲(chǔ)和管理是真正的基礎(chǔ)――離開(kāi)了它,分析平臺(tái)一無(wú)是處。在一些情況下,這些解決方案還包括員工培訓(xùn)。
這個(gè)領(lǐng)域的大玩家包括:
1. Cloudera
實(shí)際上是增加了一些額外服務(wù)的Hadoop,你會(huì)需要它,因?yàn)榇髷?shù)據(jù)不容易搞。Cloudera的服務(wù)團(tuán)隊(duì)不僅可以幫助你構(gòu)建大數(shù)據(jù)集群,還可以幫助培訓(xùn)你的員工,更好地訪問(wèn)數(shù)據(jù)。
2. MongoDB
MongoDB是最受歡迎的大數(shù)據(jù)數(shù)據(jù)庫(kù),因?yàn)樗m用于管理經(jīng)常變化的數(shù)據(jù):非結(jié)構(gòu)化數(shù)據(jù),大數(shù)據(jù)常常是非結(jié)構(gòu)化數(shù)據(jù)。
3. Talend
作為一家提供廣泛解決方案的公司,Talend的產(chǎn)品圍繞其集成平臺(tái)而建,該平臺(tái)集大數(shù)據(jù)、云、應(yīng)用程序、實(shí)時(shí)數(shù)據(jù)集成、數(shù)據(jù)準(zhǔn)備和主數(shù)據(jù)管理于一體。
圖1:Talend大數(shù)據(jù)集成平臺(tái)包括數(shù)據(jù)質(zhì)量和治理功能
二、大數(shù)據(jù)工具:數(shù)據(jù)清理
在你真正處理數(shù)據(jù)以獲取洞察力之前,需要清理和轉(zhuǎn)換數(shù)據(jù),轉(zhuǎn)換成可遠(yuǎn)程搜索的內(nèi)容。大數(shù)據(jù)集往往是非結(jié)構(gòu)化、無(wú)組織的,因此需要某種清理或轉(zhuǎn)換。
當(dāng)下,數(shù)據(jù)可能來(lái)自任何地方:移動(dòng)、物聯(lián)網(wǎng)和社交媒體,數(shù)據(jù)清理顯得更為必要。并非所有這些數(shù)據(jù)都可以輕松“清理”以獲得洞察力,因此優(yōu)秀的數(shù)據(jù)清理工具極其重要。實(shí)際上,在未來(lái)幾年,預(yù)計(jì)經(jīng)過(guò)有效清理的數(shù)據(jù)會(huì)是可接受的大數(shù)據(jù)系統(tǒng)與真正出色的大數(shù)據(jù)系統(tǒng)之間的競(jìng)爭(zhēng)優(yōu)勢(shì)。
4. OpenRefine
OpenRefine是一款易于使用的開(kāi)源工具,通過(guò)刪除重復(fù)項(xiàng)、空白字段及??其他錯(cuò)誤來(lái)清理凌亂的數(shù)據(jù)。它是開(kāi)源的,但有一個(gè)相當(dāng)大的社區(qū)可提供幫助。
5. DataCleaner
與OpenRefine一樣,DataCleaner可將半結(jié)構(gòu)化數(shù)據(jù)集轉(zhuǎn)換成數(shù)據(jù)可視化工具可以讀取的干凈可讀的數(shù)據(jù)集。該公司還提供數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)管理服務(wù)。
6. 微軟Excel
說(shuō)真的,Excel有其用途。你可以從各種數(shù)據(jù)源導(dǎo)入數(shù)據(jù)。Excel在手動(dòng)數(shù)據(jù)輸入和復(fù)制/粘貼操作方面特別有用。它能消除重復(fù)項(xiàng),查找和替換內(nèi)容,檢查拼寫(xiě),還有用于轉(zhuǎn)換數(shù)據(jù)的許多公式。但Excel很快陷入困境,不適合龐大數(shù)據(jù)集。
三、大數(shù)據(jù)工具:數(shù)據(jù)挖掘
一旦數(shù)據(jù)經(jīng)過(guò)清理和準(zhǔn)備,你可以通過(guò)數(shù)據(jù)挖掘開(kāi)始搜索數(shù)據(jù)了。這時(shí)你執(zhí)行這個(gè)實(shí)際的過(guò)程:發(fā)現(xiàn)數(shù)據(jù)、做出決定和進(jìn)行預(yù)測(cè)。
數(shù)據(jù)挖掘是大數(shù)據(jù)流程的真正核心。數(shù)據(jù)挖掘解決方案通常底層很復(fù)雜,但竭力提供 一種外觀漂亮、對(duì)用戶友好的用戶界面,說(shuō)起來(lái)容易做起來(lái)難。數(shù)據(jù)挖掘工具面臨的另一個(gè)挑戰(zhàn)是:它們確實(shí)需要人來(lái)編制查詢(xún),所以數(shù)據(jù)挖掘工具的好壞取決于使用它的專(zhuān)業(yè)人員。
7. RapidMiner
RapidMiner是一款易于使用的預(yù)測(cè)分析工具,有著對(duì)用戶友好的可視化界面,這意味著你沒(méi)必要編寫(xiě)代碼即可運(yùn)行分析產(chǎn)品。
IBM SPSS Modeler是一款包括五個(gè)數(shù)據(jù)挖掘產(chǎn)品的套件,面向企業(yè)級(jí)高級(jí)分析。另外IBM的服務(wù)和咨詢(xún)首屈一指。
9. Teradata
Teradata為數(shù)據(jù)倉(cāng)庫(kù)、大數(shù)據(jù)和分析以及營(yíng)銷(xiāo)等應(yīng)用提供端到端解決方案。這一切意味著貴公司可以真正成為數(shù)據(jù)驅(qū)動(dòng)的公司,另外還有商業(yè)服務(wù)、咨詢(xún)、培訓(xùn)和支持。
圖2:與許多目前的大數(shù)據(jù)工具一樣,RapidMiner解決方案也支持云
大數(shù)據(jù)工具:數(shù)據(jù)可視化
數(shù)據(jù)可視化是指以一種可讀、實(shí)用的格式顯示你的數(shù)據(jù)。你可以查看圖表圖形以及直觀顯示數(shù)據(jù)的其他圖像。
數(shù)據(jù)可視化既是一門(mén)科學(xué),又是一門(mén)藝術(shù)。隨著大數(shù)據(jù)從有大批數(shù)據(jù)科學(xué)家支持的高管轉(zhuǎn)移到整個(gè)公司上下,眾多員工可以使用可視化工具極為重要。銷(xiāo)售代表、IT支持和中層管理,這些團(tuán)隊(duì)個(gè)個(gè)都需要能夠理解數(shù)據(jù),因此重點(diǎn)放在易用性上。然而,易于閱讀的可視化有時(shí)與來(lái)自深度特征集的數(shù)據(jù)讀出相沖突,這帶來(lái)了數(shù)據(jù)可視化工具面臨的主要挑戰(zhàn)之一。
10. Tableau
Tableau是該領(lǐng)域的領(lǐng)導(dǎo)者,其數(shù)據(jù)可視化工具專(zhuān)注于商業(yè)智能,無(wú)需懂得編程,即可創(chuàng)建各種地圖、圖表、圖形及更多可視化元素。它共有五款產(chǎn)品,一款名為T(mén)ableau Public的免費(fèi)版供潛在客戶試用。
11. Silk
Silk是Tableau的簡(jiǎn)單版,讓你可以通過(guò)地圖和圖表將數(shù)據(jù)可視化,無(wú)需任何編程。你在首次加載Silk時(shí),它甚至?xí)囍鴮?shù)據(jù)可視化。它還讓用戶很容易在網(wǎng)上發(fā)布結(jié)果。
12. Chartio
Chartio使用自己的可視化查詢(xún)語(yǔ)言,只要點(diǎn)擊幾下鼠標(biāo)即可創(chuàng)建功能強(qiáng)大的儀表板,無(wú)需懂得SQL或其他建模語(yǔ)言。它有別于其他工具的地方主要在于,你可以直接連接到數(shù)據(jù)庫(kù),因此不需要數(shù)據(jù)倉(cāng)庫(kù)。
IBM Watson Analytics
IBM Watson Analytics結(jié)合了機(jī)器學(xué)習(xí)和人工智能,有助于提供智能數(shù)據(jù)科學(xué)助手,為業(yè)務(wù)分析員和數(shù)據(jù)科學(xué)家等擁有眾多數(shù)據(jù)科學(xué)技能的用戶扮演了向?qū)А?/p>
大數(shù)據(jù)工具的三個(gè)層次
普華永道的移動(dòng)數(shù)據(jù)和分析計(jì)劃首席技術(shù)官Ritesh Ramesh表示,就先進(jìn)程度和市場(chǎng)戰(zhàn)略而言,大數(shù)據(jù)工具可分成三層金字塔。
第一層:最龐大的是一系列開(kāi)源工具。每家公司以開(kāi)源起家,像Cloudera和Hortonworks。除了基本的基礎(chǔ)設(shè)施、服務(wù)器和存儲(chǔ)外,沒(méi)有多大的價(jià)值。大多數(shù)云廠商已將這一層實(shí)現(xiàn)了商品化。
第二層:在這一層,大多數(shù)這類(lèi)廠商已有意增加各自的市場(chǎng)份額,在開(kāi)源工具上面構(gòu)建一些專(zhuān)有應(yīng)用程序,從而做到與眾不同。舉例說(shuō),Cloudera開(kāi)發(fā)了許多產(chǎn)品,比如駐留在Hadoop核心上的數(shù)據(jù)科學(xué)平臺(tái)。
第三層:這些是針對(duì)特定垂直領(lǐng)域的應(yīng)用程序。這些公司大多與普華永道、高知特或埃森哲等系統(tǒng)集成商合作。真正的價(jià)值出在這里,這對(duì)大數(shù)據(jù)工具開(kāi)發(fā)商來(lái)說(shuō)也是非常有效的競(jìng)爭(zhēng)策略。
Ramesh表示,除了基本功能外,這些工具的三大方面?zhèn)涫軞g迎。首先是數(shù)據(jù)處理工具。他說(shuō):“數(shù)據(jù)學(xué)習(xí)工具是客戶的工具箱中確保數(shù)據(jù)質(zhì)量和分析數(shù)據(jù)的重要工具,比如處理5000萬(wàn)行數(shù)據(jù)以發(fā)現(xiàn)洞察力。”
他表示,領(lǐng)先的廠商包括Trifacta、Paxata和Talend。
第二大類(lèi)應(yīng)用程序是治理,比如你如何定義元數(shù)據(jù)。他說(shuō):“好多人在這方面遇到困難。人們只是將大量垃圾數(shù)據(jù)倒到數(shù)據(jù)湖。市面上可在數(shù)據(jù)湖中積極發(fā)揮功效的工具不多。由于這項(xiàng)工作主要由IT人員完成,他們更有興趣將數(shù)據(jù)倒到數(shù)據(jù)湖,而不是確立一種治理結(jié)構(gòu)。”
主要廠商包括Waterline Data、以數(shù)據(jù)編目工具見(jiàn)長(zhǎng)的Tamr和Collibra。
Ramesh說(shuō),經(jīng)常出現(xiàn)的第三大需求是安全。他說(shuō):“人們希望一個(gè)產(chǎn)品就有安全訪問(wèn)的所有層(列、行和對(duì)象)。他們希望一款產(chǎn)品為不同的數(shù)據(jù)對(duì)象支持用戶訪問(wèn)和安全。這也是個(gè)新興領(lǐng)域。”
這個(gè)領(lǐng)域的主要廠商是Wandisco和FireEye。
原文標(biāo)題:Top 12 Big Data Tools,作者:Andy Patrizio
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】



























