Intel吳甘沙:大數(shù)據(jù)發(fā)展脈絡(luò)
原創(chuàng)2013年4月26日-27日,由51CTO傳媒集團(tuán)旗下WOT(World Of Tech)品牌主辦的2013大數(shù)據(jù)全球技術(shù)峰會在北京富力萬麗酒店召開。本次峰會將圍繞大數(shù)據(jù)基礎(chǔ)架構(gòu)與上層應(yīng)用的生態(tài)系統(tǒng),解決大規(guī)模數(shù)據(jù)引發(fā)的問題,探索大數(shù)據(jù)基礎(chǔ)的解決方案,激發(fā)數(shù)據(jù)挖掘帶來的競爭力,讓數(shù)據(jù)發(fā)出聲音。51CTO作為本次峰會的主辦方,將全程視頻、圖文直播報道這場數(shù)據(jù)的盛宴,更多內(nèi)容請點擊專題:2013大數(shù)據(jù)全球技術(shù)峰會。
26日上午,英特爾中國研究院首席工程師吳甘沙先生發(fā)表了主題為“大數(shù)據(jù)發(fā)展脈絡(luò):見自己,見天地,見眾生”的演講。演講中,吳甘沙指出,大科技革命的下一波高潮已經(jīng)呼之欲出,大數(shù)據(jù)模式可以分成三類,第一類見自己,正如蘇格拉底說的你要認(rèn)識自己。第二個層面是見天地,你要關(guān)注你自己,來到天地之間、社會之中,去了解群體和社會的行為。第三個是見眾生,所謂眾生就是天地、自然、萬物,所謂一切眾生皆有佛性,這就是天地、自然、萬物的規(guī)律。
英特爾中國研究院首席工程師吳甘沙
他在演講中提出了DRAGON時代的軟件定義城市,DRAGON分別表示,Data driven、Resilient、Automated、Gamified、Open、Networked,而通往DRAGON時代的必然經(jīng)過新的大數(shù)據(jù)思維方式和方法學(xué),新的大數(shù)據(jù)生態(tài)系統(tǒng)和服務(wù)模式和新的大數(shù)據(jù)采集、存儲、管理、計算、安全技術(shù)。其中,大數(shù)據(jù)的新思維包括,數(shù)據(jù)隨時間迅速折舊,個體數(shù)據(jù)的精確性不再重要,改變“數(shù)據(jù)是稀缺資源”的世界觀等。

此外,他還提出,未來的智慧城市公共數(shù)據(jù)和服務(wù)平臺應(yīng)該包含三層,底層城市操作系統(tǒng)、中層數(shù)據(jù)交易市場和頂層城市應(yīng)用商店,由此需要相關(guān)的技術(shù)才可達(dá)成。
如下為演講全文:
吳甘沙:大家早上好!身在這個舞臺感到非常榮幸,我今天的標(biāo)題是“大數(shù)據(jù)發(fā)展脈絡(luò)——見自己、見天地、見眾生”。這三個境界,我相信很多人能夠同意這是一代宗師里面最令人振聾發(fā)聵的一句話,組委會讓我講一講大數(shù)據(jù)對于我們的生活、工作以及我們思維的改變,所以我就把這個形而上的標(biāo)題放上去。我知道我給自己挖了一個大坑,待會是否能填上,是否有標(biāo)題黨的嫌疑,請大家原諒。
說一下我自己,我在英特爾十幾年,早四五年主要是做虛擬機(jī)、編譯器以及移動架構(gòu),中間四五年是做多核、重核的架構(gòu),以及并行計算,這幾年轉(zhuǎn)到分布式系統(tǒng),像物聯(lián)網(wǎng)、大數(shù)據(jù)等等。大家可以看到,從手機(jī)到多核、重核再到分布式系統(tǒng),每一個階段我們都可以看到一個相對比較長時期的大趨勢,我們把這個趨勢作為一種信仰,在這個上面念念不忘做了四五年才能產(chǎn)生回想。我非常同意大家說的,大數(shù)據(jù)是一個非常激動人心的機(jī)會,我們也把這個作為我們最重要的信仰。為什么這么說呢?我想給大家看一下科技革命的宏觀規(guī)律,在人類歷史上出現(xiàn)三次科技革命,第一次持續(xù)了50年,實現(xiàn)了機(jī)械化。第二次持續(xù)了整整一個世紀(jì),以電氣化作為標(biāo)志。第三次是人類歷史上影響最為深遠(yuǎn)的一次革命,信息化的出現(xiàn)以及信息化跟其他行業(yè)的這樣一種相互影響。
前蘇聯(lián)的康德拉季耶夫發(fā)現(xiàn)了三次長波理論,雖然這位老兄在第三次的時候在蘇聯(lián)被革命掉了,但是他的第四次長波還是能夠很好的和我 們的第三次科技革命吻合。所以有理由相信,如果2008年是第四次長波的結(jié)束的話,現(xiàn)在我們處在第五次長波的開始階段,很有理由相信我們 現(xiàn)在面臨著第3.5次或者第四次的這樣一種科技革命。下一波高潮呼之欲出。
再看一下信息革命的小周期,我們認(rèn)為信息技術(shù)革命經(jīng)歷了三個周期,第一個周期是架化,以IBM的360主機(jī)為代表的架構(gòu)化,我們產(chǎn)生了 兼容的指令及操作系統(tǒng)、高級語言編譯機(jī),第二個周期是數(shù)字化,第三次是網(wǎng)絡(luò)化,使得我們的信息對每個人唾手可得。現(xiàn)在我們很有理由信 心,現(xiàn)在正在發(fā)生一些新的東西,第四次我們認(rèn)為就是這幾個關(guān)鍵詞,移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算和大數(shù)據(jù)會是第四次科技革命的主要方式 。我們相信這四個技術(shù)并不是相互割裂的,待會我會說明這四個技術(shù)是相關(guān)的。
說到大數(shù)據(jù),究竟是一個什么東西,剛才跟IBM的王總也在談,我想它肯定不是數(shù)據(jù)庫,數(shù)據(jù)庫是它的一部分,但是它更是一種思維方式, 更是一種戰(zhàn)略,要跟業(yè)務(wù)層面、跟應(yīng)用結(jié)合起來的一個東西。我把大數(shù)據(jù)模式分成三類,第一類見自己,正如蘇格拉底說的你要認(rèn)識自己。第 二個層面是見天地,你要關(guān)注你自己,來到天地之間、社會之中,去了解群體和社會的行為。第三個是見眾生,所謂眾生就是天地、自然、萬 物,所謂一切眾生皆有佛性,這就是天地、自然、萬物的規(guī)律。分別看一下這三個方面,第一個見自己,基督教有句話叫凡走過必留下足跡, 我們經(jīng)常在互聯(lián)網(wǎng)上留下足跡,比如說北大做了微博的可視化、清華做了微博的關(guān)鍵詞,Prismatic做了微八卦,Coursera根據(jù)你的興趣行為幫 助你做在線學(xué)習(xí),Klout是一個社交影響力平臺,能夠算出你的社交影響力,比如說你的積分超過四五十分,你到機(jī)場可以免費享用VIP。所以 這是第一方面。第二個方面是我們每個人心智健康的狀況。第三就是你的消費行為,F(xiàn)ICO是美國消費信用評估公司,它公開聲稱我了解你明天要買什么東西,包括我們的精準(zhǔn)營銷,所謂納米的定位。
基于這些新思維,我們要有新的方法學(xué),當(dāng)然這些方法學(xué)并不是我獨創(chuàng)的,很多方法學(xué)最早在理論終結(jié)短文中已經(jīng)出現(xiàn)了,最近又被更深入的闡述了出來。第一個就是采樣數(shù)據(jù)到全集數(shù)據(jù),第一層面,我們要把數(shù)據(jù)采集作為一種全面的習(xí)慣,第二層面,我們數(shù)據(jù)采集時要避開主觀性。老外寫了一本書,說原數(shù)據(jù)本身是矛盾修辭,這里面帶有采集人的主觀思維,所以我們要盡量避免,怎么避免?我們要通過工具,不是通過人,去插入這個采集點,把它放入基礎(chǔ)設(shè)施。第三層概念,因為你數(shù)據(jù)采集下來,必須要解決存儲的問題。
第二個就是多數(shù)據(jù)源的整合問題,我們有很多數(shù)據(jù)源,怎么通過數(shù)據(jù)融合的算法把它整合起來,怎么從非結(jié)構(gòu)化的數(shù)據(jù)當(dāng)中抽取語義出來。如果這些數(shù)據(jù)源是分布在各個區(qū)域的,這個分布式中心系統(tǒng)跟我們的分布式中心系統(tǒng)還不一樣,我怎么樣能夠在跨數(shù)據(jù)中心的情況下實現(xiàn)多數(shù)據(jù)源的整合。
第三個,就是大數(shù)據(jù)加上簡單算法,它比小數(shù)據(jù)加上復(fù)雜算法更有意義。這個事實上在很多方面都獲得了證實,比如說機(jī)器翻譯,我們的搜索到現(xiàn)在非常流行的深度學(xué)習(xí),都發(fā)現(xiàn)你的數(shù)據(jù)集大的話,你的算法可以簡單,但是你的結(jié)果可以更好。你的算法如果能夠跟上下文、知識的積累結(jié)合起來,這個結(jié)果就更好。比如說Google最早的搜索是基于統(tǒng)計學(xué)的,但是它加入了知識圖譜的功能以外,搜索出來的結(jié)果就會更好。
還有一個就是因果關(guān)系跟相關(guān)關(guān)系的關(guān)系,現(xiàn)在這個已經(jīng)出現(xiàn)在很多地方,大家都說我們要相關(guān)性,不管因果性,并不是說我們不需要最終追究這個因果關(guān)系,但是我們傳統(tǒng)的科學(xué)態(tài)度是什么?看到了一個相關(guān)性,我會想要了解為什么,我想給出一個假設(shè),建立一個模型,然后去驗證這個模型,這里面帶入了相當(dāng)多的主觀因素。還不如在這個時間段,我盡量去發(fā)現(xiàn)相關(guān)性,先不去考慮因果,先發(fā)現(xiàn)相關(guān)性,然后再研究因果。美國有一個人發(fā)明了鳥槍基因測序法,他并不是看到一個新的物種然后去測,他是直接對海水去測取,直接對紐約市的空氣進(jìn)行測取,他能夠在其中發(fā)現(xiàn)幾百萬種新的基因片段,然后基于新的片段,再跟現(xiàn)存的生物做比對,再取這種相關(guān)性。我就想到前一段時間的禽流感,我們在菜市場對空氣進(jìn)行測取就可以了,何必進(jìn)行采樣呢?所以這個思維方式非常重要。
還有一個就是描述性的分析,我們原來的報表、原來的分析都是描述性的分析,它是什么呢?我要了解過去發(fā)生了什么,為什么發(fā)生。最好的情況下,是能夠了解現(xiàn)在正在發(fā)生什么。但是未來是預(yù)測性的,我要了解未來會發(fā)生什么,甚至是處方性的分析,我想要未來發(fā)生什么,我要做什么樣的事情,能夠讓未來這件事情發(fā)生。
還有一個就是實時性,一定比絕對的精確性更重要。大家知道,購物籃分析是基于歷史的數(shù)據(jù)做出相對精確的分析,但是問題是當(dāng)你在一個超市購物的時候,你去發(fā)現(xiàn)用戶這個最好的點,是他還在瀏覽、找東西的時候,而不是最后結(jié)賬的時候,所以實時性非常重要。這是一大類的思維和方法學(xué)。
大家可以看到,在我們的實際應(yīng)用當(dāng)中,比如說現(xiàn)代交通就需要多數(shù)據(jù)源,有些數(shù)據(jù)來自于北京的監(jiān)控和指揮中心,有些是二級以上城市的數(shù)據(jù)。我們每天攝像頭產(chǎn)生的視頻和圖象數(shù)據(jù)以及原數(shù)據(jù)要幾百個GB,其他的數(shù)據(jù),大家可以看到結(jié)構(gòu)化的數(shù)據(jù),手機(jī)位置信息,1800萬條。出租車GPS信息兩千萬條每天,交通卡刷卡信息1900萬條每天,還有高速收費的數(shù)據(jù),還有靜態(tài)的數(shù)據(jù),居民調(diào)查的數(shù)據(jù),甚至是看起來跟交流沒有關(guān)系的這些領(lǐng)域,事實上也能夠產(chǎn)生相關(guān)性,比如說我們的供水系統(tǒng),我們的供水系統(tǒng)能夠知道早上晨起的高峰時間,同樣智能系統(tǒng)能夠知道每天晚上辦公室關(guān)燈的高峰時間,根據(jù)這個時間它能推算晚上堵車時間。包括我們的睡眠質(zhì)量跟我們交通的狀況有關(guān)系,我們對社交網(wǎng)絡(luò)進(jìn)行情感分析,跟我們的交通事實上也有關(guān)系。這種多數(shù)據(jù)源的集成,才能達(dá)到最大化的價值。
大價值也能帶來新思維,首先數(shù)據(jù)是個原材料,如果說我們現(xiàn)在處在新一輪的工業(yè)革命,第三次工業(yè)革命早期的話,工業(yè)革命的原材料就是我們的數(shù)據(jù),所以它有原生價值。同時,如果說數(shù)據(jù)是個原油儲備的話,從數(shù)據(jù)里提取出來的信息是原油,所以它又有提煉的衍生價值。數(shù)據(jù)又是資產(chǎn),我們原來說我們的企業(yè)IT部門純粹只花錢不賺錢,但是如果數(shù)據(jù)成為資產(chǎn)了,它就可以成為一個利潤中心,這個數(shù)據(jù)有初次利用價值,也有反復(fù)利用價值。比如說物流公司有個人信息數(shù)據(jù),有托運方的數(shù)據(jù),以及很多客戶的數(shù)據(jù)。一開始的想法肯定是把這些數(shù)據(jù)很好地利用起來,使它的運營更為有效。但是再想一想,它事實上可以反復(fù)利用這些價值,比如說托運方信用數(shù)據(jù),使得他能夠?qū)ν羞\方進(jìn)行貸款服務(wù),甚至拿托運方正在路上的貨物進(jìn)行抵押貸款,他能夠了解每一個細(xì)分領(lǐng)域的經(jīng)濟(jì)運行情況,又能夠變成一個金融信息公司,所以數(shù)據(jù)是能夠反復(fù)利用的。最后一個數(shù)據(jù)是貨幣,既然是貨幣就能夠交易。
基于這樣的新思維產(chǎn)生的新的方法學(xué)是什么呢?它可能是一種數(shù)據(jù)的資產(chǎn)產(chǎn)品和社會化分析服務(wù),為了達(dá)到這些,我們首先要考慮數(shù)據(jù)的民主化,怎樣實現(xiàn)數(shù)據(jù)的民主化,讓每一個人接觸到數(shù)據(jù)?事實上我們的政府應(yīng)該走出第一步開放我們的數(shù)據(jù),從美國來說,紐約和芝加哥都有開元數(shù)據(jù)等等,所有這些都代表政府應(yīng)該在前面領(lǐng)路。除了政府免費開放這種數(shù)據(jù),其他的還應(yīng)該有有償數(shù)據(jù),通過數(shù)據(jù)的市場和定價,你這個數(shù)據(jù)是根據(jù)量定價還是根據(jù)你的數(shù)據(jù)類型定價。還有,我們并不是每一個擁有數(shù)據(jù)的人都有分析的能力,所以你要社會化分析的服務(wù),讓別人幫你分析,在保障數(shù)據(jù)擁有權(quán)和其他權(quán)利的前提下,讓其他人幫助你分析,事實上在美國有這樣的公司實現(xiàn)這個東西。
所有這些帶來了新的數(shù)據(jù)大生態(tài)的系統(tǒng),第一個是數(shù)據(jù)擁有者,第二種是數(shù)據(jù)中介,第三種是數(shù)據(jù)的技術(shù)公司。現(xiàn)在很多傳統(tǒng)行業(yè)的客戶他可能就是數(shù)據(jù)的擁有者,但是現(xiàn)在也有很多新的,比如說微軟有提供數(shù)據(jù)的產(chǎn)品和服務(wù),同時能夠交換數(shù)據(jù),所以它又承擔(dān)了數(shù)據(jù)中介的服務(wù)。而像阿里巴巴可能是承擔(dān)了三個角色。
在智慧城市里面,怎么去安排這樣一種生態(tài)系統(tǒng)?我們認(rèn)為未來的智慧城市,它會出現(xiàn)一種公共數(shù)據(jù)和服務(wù)平臺,平臺的最下面是城市的操作系統(tǒng)。大家知道,操作系統(tǒng)是用來管理資源、調(diào)度資源,在我們的城市里面,你也有很多分布式的存儲、互聯(lián)和計算的資源,還有很多分布式的傳感器的資源。操作系統(tǒng)同時又有很多的高層的抽象,我們有文件、有進(jìn)程、線程、信號燈,在城市生活當(dāng)中也有路燈、有路、有各種各樣的電網(wǎng),所以這些高層的抽象都可以由城市的操作系統(tǒng)建立起來。第二層就是數(shù)據(jù)的交易市場,你要有這么一個數(shù)據(jù)的集市,讓大家把數(shù)據(jù)放上去交易產(chǎn)生價值。剛才說過紐約、芝加哥、都柏林等各種各樣的數(shù)據(jù)市場。第三層就是城市的應(yīng)用商店,有各種各樣的應(yīng)用,這些應(yīng)用都能把你個人、把你的環(huán)境、服務(wù)數(shù)據(jù)連接在一起。這三層架構(gòu)你需要掌握新的技術(shù),比如說在IaaS、PaaS這一層,你需要具有多范式,在DaaS層面,你需要有數(shù)據(jù)定價的功能和權(quán)利的保障,在SaaS方面,你要把城市、政府和個人生活連接起來。這是傳統(tǒng)大數(shù)據(jù)的技術(shù)站,最下面的是計算互聯(lián)存儲,現(xiàn)在這塊事實上也有很多新的發(fā)展,我們的計算從單節(jié)點變成機(jī)架的計算,我們的標(biāo)準(zhǔn)服務(wù)器變成定制化的服務(wù)器,有硬件加速器、軟硬件協(xié)同設(shè)計等等。數(shù)據(jù)處理的信息和結(jié)果能夠以用戶消費的結(jié)果顯示出來,同時有數(shù)據(jù)權(quán)利的問題,數(shù)據(jù)權(quán)利是一個比較新的概念。
我們先說在這個站上面需要做的一些新的考量,我們認(rèn)為大數(shù)據(jù)一個系統(tǒng)一定是針對特定的應(yīng)用做出一個特定的最優(yōu)大數(shù)據(jù)系統(tǒng),而這個大數(shù)據(jù)系統(tǒng)要考慮三個因素,一個是大體量、一個是精確性、一個是實時性。我們現(xiàn)在認(rèn)為在很多情況下你只能滿足兩個,不能三角全部滿足,這只是我們現(xiàn)在的觀察。比如說批量計算,能夠滿足大體量和精確性,但是不能滿足實時性。復(fù)雜數(shù)據(jù)處理,能夠滿足實時性,但是處理的數(shù)據(jù)只能在一個窗口里,相對比較小,同時它是一個實時的inside。即時查詢,還能夠?qū)?shù)據(jù)進(jìn)行采樣,實現(xiàn)秒的查詢結(jié)果。增量計算相對比較好的平衡了這三方面,所謂增量計算就是歷史數(shù)據(jù)放在一邊,新數(shù)據(jù)不斷加進(jìn)來,產(chǎn)生新的價值。當(dāng)然,增量計算必須跟內(nèi)存計算結(jié)合起來,有內(nèi)存計算才能實現(xiàn)更好的短延遲的計算。小數(shù)據(jù)個人的計算是在這一頭,它能夠完成精確性,而我們的城市計算是在另外一頭,它是一個大體量。所以你要有一個設(shè)計權(quán)衡。
基于這個設(shè)計權(quán)衡,我們也做了一個完整的站,這個站里面,當(dāng)然有Hadoop,如果你拷貝三份的話,非常浪費資源。SQL和即席查詢,包括圖計算,在這上面實現(xiàn)大規(guī)模的數(shù)據(jù)分析以及數(shù)據(jù)的可視化,再下面是基于IA的平臺、基架。就英特爾研究院就參與了很多工作,比如說英特爾現(xiàn)在已經(jīng)有Hadoop。
再說一下現(xiàn)在誰擁有數(shù)據(jù)、誰能用數(shù)據(jù)、誰在用數(shù)據(jù)、管理邊界在哪里?Google的道路狀況數(shù)據(jù)庫沒有開放出來,我們的社交媒體數(shù)據(jù)庫到底是屬于發(fā)帖人還是社交網(wǎng)絡(luò),這也不太清楚。比如說我們的行車記錄儀是屬于保險公司還是車、還是個人的,你的醫(yī)療記錄電子病歷到底屬于醫(yī)院還是你個人的?實際上這些權(quán)利都不是特別清楚,所以我們現(xiàn)在強調(diào)數(shù)據(jù)有三種權(quán)利,第一種是擁有權(quán),第二種隱私權(quán)利,第三種是使用知情權(quán)。
第一種,我們要保障他的擁有權(quán),我們要有法律和技術(shù)進(jìn)行保障。其次就是我們的隱私權(quán),大家知道,隱私和服務(wù)是一種辯證法,關(guān)鍵是我們對這個隱私數(shù)據(jù)的使用要有控制,這種控制需要使用的知情權(quán),這個使用的知情權(quán)就是說數(shù)據(jù)的擁有者對于這個數(shù)據(jù)的使用是可計的,數(shù)據(jù)轉(zhuǎn)換當(dāng)中,它的血統(tǒng)是否丟失了,產(chǎn)生多少價值。而且尤其像GPL一樣,我做了開源軟件的1.0,別人做了2.0,他賣了錢以后,我是否可以分一部分利潤。
最后總結(jié)一下,通過DRAGON時代的必經(jīng)之路,我們需要了解新的生態(tài)系統(tǒng),參與生態(tài)系統(tǒng),提供新的服務(wù)模式。第三個就是在大數(shù)據(jù)的采集、管理、存儲、分析、數(shù)據(jù)保障這一塊要有新的東西。
最后用這一張作為一個結(jié)語,剛才說的幾個都不是相互割裂的,大數(shù)據(jù)是根本、是核心,云計算是術(shù),它是方式和手段,移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)是物化大數(shù)據(jù)和云計算的價值。
今天我就講到這里,謝謝大家!
以上是51CTO.com記者從一線為您帶來的精彩報道。后續(xù)我們還有更加精彩的獨家報道,敬請關(guān)注。


























