国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

大數(shù)據(jù)流難以管理?借助StreamSets來駕馭

譯文
大數(shù)據(jù)
看看免費開源的StreamSets Data Collector如何為實時流數(shù)據(jù)帶來可見性和控制性。

【51CTO.com快譯】

[[175601]]

物聯(lián)網(wǎng)數(shù)據(jù)有望發(fā)掘獨特的、前所未有的業(yè)務(wù)洞察力,不過前提是企業(yè)能夠成功地管理從眾多物聯(lián)網(wǎng)數(shù)據(jù)源流入的數(shù)據(jù)。許多企業(yè)試圖從物聯(lián)網(wǎng)項目獲得價值,但經(jīng)常遇到的一個問題是數(shù)據(jù)漂移(data drift):源設(shè)備和數(shù)據(jù)處理基礎(chǔ)設(shè)施經(jīng)常發(fā)生不可預(yù)測的變化,因而導(dǎo)致數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容或含義發(fā)生變化。

無論流式處理還是批量處理,數(shù)據(jù)通常經(jīng)由眾多工具,從數(shù)據(jù)源進(jìn)入到最后的存儲位置。這條鏈上任何地方的變化都會導(dǎo)致下流系統(tǒng)中出現(xiàn)不完整、不準(zhǔn)確或不一致的數(shù)據(jù),無論是源系統(tǒng)的模式發(fā)生變化、編碼字段值的含義發(fā)生變化,還是參與數(shù)據(jù)生成的軟件組件出現(xiàn)升級或添加。

這種數(shù)據(jù)漂移的影響可能危害特別大,因為它們常常長時間沒有被發(fā)現(xiàn),因而讓低逼真度數(shù)據(jù)污染了數(shù)據(jù)存儲和隨后的分析。在被發(fā)現(xiàn)之前,使用這種有問題的數(shù)據(jù)會導(dǎo)致錯誤的發(fā)現(xiàn)結(jié)果和拙劣的業(yè)務(wù)決定。等到最后發(fā)現(xiàn)了問題,通常借助數(shù)據(jù)科學(xué)家的手動數(shù)據(jù)清理和準(zhǔn)備來加以解決,這給數(shù)據(jù)分析增添了硬性成本、機(jī)會成本和延誤。

StreamSets Data Collector

使用StreamSets Data Collector來構(gòu)建和管理大數(shù)據(jù)攝取管道將有助于緩解數(shù)據(jù)漂移的影響,同時大大縮短花在數(shù)據(jù)清理上的時間。我們在本文中將逐步介紹一種典型的使用場合:實時攝取物聯(lián)網(wǎng)傳感器生成的數(shù)據(jù),饋入到HDFS,以便分析,并使用Impala或Hive實現(xiàn)可視化。

不用編寫一行代碼,StreamSets Data Collector就能從眾多數(shù)據(jù)源攝取流數(shù)據(jù)和批量數(shù)據(jù)。StreamSets Data Collector可執(zhí)行轉(zhuǎn)換,并在數(shù)據(jù)流傳輸過程中清理數(shù)據(jù),然后寫入到眾多目的地。管道部署到位后,你就能獲得細(xì)粒度的數(shù)據(jù)流度量指標(biāo)、檢測異常數(shù)據(jù),并發(fā)出警報,那樣你就能密切關(guān)注管道性能。StreamSets Data Collector可以獨立運行,也可以部署在Hadoop集群上,它提供了支持眾多類型的數(shù)據(jù)源和目的地的連接件。

下列使用場合涉及從貨運集裝箱實時生成的數(shù)據(jù)。

數(shù)據(jù)漂移的第一個例子體現(xiàn)在貨運集裝箱使用的物聯(lián)網(wǎng)傳感器。由于長期以來的升級,生產(chǎn)一線的傳感器運行三種不同固件版本中的一種。每種版本添加新的數(shù)據(jù)字段,改變模式。為了從該傳感器數(shù)據(jù)獲得價值,我們用來攝取信息的系統(tǒng)必須能夠兼顧這種多樣性。

清潔和傳送數(shù)據(jù)

我們的管道從RabbitMQ系統(tǒng)讀取數(shù)據(jù),該系統(tǒng)負(fù)責(zé)從生產(chǎn)一線的傳感器接收MQTT消息。我們進(jìn)行核實,確保我們收到的消息正是想要處理的那些消息。為此,我們使用數(shù)據(jù)流選擇器處理程序,為入站消息指定數(shù)據(jù)規(guī)則。然后,我們使用該規(guī)則宣布與該規(guī)則的標(biāo)準(zhǔn)匹配的所有數(shù)據(jù)都傳送到下游,但是不匹配的任何數(shù)據(jù)一概被丟棄。

然后,我們使用另一個數(shù)據(jù)流選擇器,根據(jù)設(shè)備的固件版本來傳送數(shù)據(jù)。與版本1匹配的所有記錄走一條路徑,與版本2匹配的所有記錄走另一條路徑,以此類推。我們還指定了一條默認(rèn)的全部捕獲(catch-all)規(guī)則,將任何異常發(fā)送到一條“錯誤”路徑。針對現(xiàn)代數(shù)據(jù)流,我們完全預(yù)料到數(shù)據(jù)會出現(xiàn)意外的變化,于是我們設(shè)立了一種從容的錯誤處理機(jī)制:把異常記錄引到本地文件、Kafka數(shù)據(jù)流或輔助管道。那樣一來,我們就能保持管道正常運行,同時事后重新處理不符合主要目的的數(shù)據(jù)。

不妨從為固件版本3處理數(shù)據(jù)入手,這增添了緯度/經(jīng)度數(shù)據(jù)。我們馬上想要確保那些字段出現(xiàn)在數(shù)據(jù)集中,而且數(shù)據(jù)包含有效的值。由于位置字段是一個嵌套的結(jié)構(gòu),我們想要對它作扁平化處理,最終丟棄嵌套的數(shù)據(jù)。

同樣,固件版本2包括新的方位字段(raw、pitch和roll),我們可以以一種類似的方式來核實和清潔它。

最后,所有設(shè)備版本都包含溫度和濕度讀數(shù)。首先,我們轉(zhuǎn)換這些讀數(shù)的數(shù)據(jù)類型。濕度轉(zhuǎn)換成了雙精度浮點型(double),濕度轉(zhuǎn)換成了整型(integer),日期轉(zhuǎn)換成了Unix時間戳。

然后我們使用腳本處理程序來編寫一些自定義邏輯,比如將華氏度值轉(zhuǎn)換成攝氏度。StreamSets腳本處理程序支持Jython、Groovy和JavaScript。

清理數(shù)據(jù)(也就是根據(jù)固件版本和最終用途來傳送數(shù)據(jù))后,我們把它發(fā)送到幾個HDFS目的地。

配置目的地

StreamSets本身支持許多數(shù)據(jù)格式,比如明文、分隔文本、JSON、Protobuf和Avro。在該例子中,我們將把數(shù)據(jù)寫入到一個經(jīng)過壓縮的Avro文件。

HDFS目的地可以靈活配置。你可以按照企業(yè)政策的要求來配置安全、動態(tài)配置輸出文件的路徑和位置,甚至決定寫入多個Cloudera CDH版本。

一旦你設(shè)計好了管道,就可以切換至預(yù)覽模式,使用數(shù)據(jù)樣本來測試和調(diào)試數(shù)據(jù)流。你可以逐步調(diào)試每一個處理程序,在任何階段分析數(shù)據(jù)狀態(tài)。

比如說,我們可以在下面看到,reading_date和temperature的數(shù)據(jù)類型被轉(zhuǎn)換成了長整型和雙精度浮點型。如果執(zhí)行了轉(zhuǎn)換數(shù)據(jù)的運算,StreamSets也會提醒你。

你還可以把異常或“極端情況”數(shù)據(jù)注入到數(shù)據(jù)流,看看它對你的數(shù)據(jù)流有何影響。預(yù)覽模式讓你可以輕松地調(diào)試復(fù)雜的管道,不需要把管道放入到生產(chǎn)環(huán)境。

執(zhí)行管道

現(xiàn)在我們準(zhǔn)備執(zhí)行管道,開始將數(shù)據(jù)攝入到我們的集群中。點擊“開始”按鈕,用戶界面就會切換至執(zhí)行模式。

這時候,StreamSets Data Collector開始攝取數(shù)據(jù),在內(nèi)存中處理數(shù)據(jù),然后將數(shù)據(jù)發(fā)送到目的地。屏幕底部的監(jiān)控窗口顯示了各個實時度量指標(biāo),比如多少記錄讀入、多少記錄寫出。你還可以查看多少時間花在了每個處理程序上,它占用了多少內(nèi)存。這些度量指標(biāo)以及更多的指標(biāo)還可以通過Java管理擴(kuò)展(JMX)來加以訪問。

我們將數(shù)據(jù)送入到HDFDS后,立即就能開始查詢Impala,并運行分析、機(jī)器學(xué)習(xí)或可視化。

如今,由于用戶改動和更新系統(tǒng),或者甚至更換平臺,物聯(lián)網(wǎng)設(shè)備、傳感器日志、Web點擊流及其他重要數(shù)據(jù)源在不斷變化。數(shù)據(jù)內(nèi)容、結(jié)構(gòu)、行為和含義的這些變化是不可預(yù)測、未宣布、沒完沒了的,它們會給數(shù)據(jù)處理和分析系統(tǒng)及其運營帶來重大危害。StreamSets Data Collector有助于管理數(shù)據(jù)基礎(chǔ)設(shè)施不斷出現(xiàn)的變化,馴服數(shù)據(jù)漂移,并確保數(shù)據(jù)處理系統(tǒng)的完整性。

原文標(biāo)題:Tame unruly big data flows with StreamSets,作者:Arvind Pabhakar

【51CTO譯稿,合作站點轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】

責(zé)任編輯:趙立京 來源: 51CTO
相關(guān)推薦

2015-10-28 10:55:36

2023-07-26 00:20:20

Java 8數(shù)組方式

2023-07-24 08:20:11

StreamJava方式

2019-07-05 12:16:26

大數(shù)據(jù)IT互聯(lián)網(wǎng)

2011-08-29 10:19:09

Microsoft S控制較大數(shù)據(jù)流

2019-06-18 13:51:08

大數(shù)據(jù)流處理新興市場

2013-09-03 10:03:27

大數(shù)據(jù)大數(shù)據(jù)處理

2021-07-23 11:32:05

大數(shù)據(jù)數(shù)據(jù)處理殺熟

2014-11-11 10:47:19

hadoop數(shù)據(jù)流

2022-03-18 08:57:17

前端數(shù)據(jù)流選型

2009-08-19 10:41:12

Java輸入數(shù)據(jù)流

2011-12-14 15:57:13

javanio

2013-04-18 10:00:40

大數(shù)據(jù)大數(shù)據(jù)全球技術(shù)峰會

2021-09-26 05:03:31

數(shù)據(jù)流Redux

2013-01-15 13:04:26

駕馭大數(shù)據(jù)大數(shù)據(jù)

2012-07-03 09:59:47

微軟Cloud Numer大數(shù)據(jù)

2013-10-18 17:15:37

SAP

2013-02-25 11:04:39

Teradata 大數(shù)據(jù)天睿

2013-05-06 10:55:53

2016-11-14 19:01:36

數(shù)據(jù)流聊天系統(tǒng)web
點贊
收藏

51CTO技術(shù)棧公眾號

正在播放国产精品| 激情小视频在线观看| 雨宫琴音一区二区三区| www.欧美免费| 欧美野外wwwxxx| 欧美性色综合网| 在线观看国产视频| 一区二区三区不卡视频| 妞干网2018| 国产蜜臀av在线一区二区三区| 中文字幕无码精品亚洲资源网久久| 天堂资源在线中文精品| 久久综合一区二区三区| 一区二区三区四区五区在线 | 国产日韩欧美一区| 99中文字幕| 亚洲区欧美区| 国产精品96久久久久久又黄又硬| 天天躁日日躁成人字幕aⅴ| 午夜精品一区二区三区在线| 草草视频在线一区二区| 欧美疯狂xxxx大交乱88av| 亚洲三级在线| 欧美大片免费看| 亚洲制服欧美另类| 国产精品九九久久久久久久| 欧美丰满老妇| 久久精品国产99精品国产亚洲性色| 午夜在线观看免费一区| 亚洲高清乱码| 粉嫩高潮美女一区二区三区 | 欧美高清一级大片| 亚洲深夜福利在线观看| 国产日本欧美视频| 亚洲午夜在线| 五月天亚洲综合情| 国产福利一区二区三区| 免费av网址在线| 国产精品不卡在线| 四虎精品成人免费网站| 欧美日本在线观看| 欧美aa一级| 色哟哟入口国产精品| 精品网站aaa| 国产精选久久久久久| 一本色道久久综合亚洲精品不| 欧美性视频在线播放| 26uuuu精品一区二区| 亚洲美女在线免费观看| 欧美性大战久久久久久久 | 99久久婷婷这里只有精品| 99国精产品一二二线| 首页欧美精品中文字幕| 亚洲人成无码网站久久99热国产| 亚洲欧洲av色图| 亚洲s色大片| 久久伊人精品一区二区三区| 欧美日韩色图| 在线视频不卡一区二区三区| 国产精品久久三区| 一级毛片视频在线| 亚洲一区www| 精品视频国产| 亚洲午夜精品久久久久久浪潮| 26uuu国产电影一区二区| 翔田千里一区| 国产一区二区三区在线| 欧美成人激情| 青青青青草视频| 欧洲在线/亚洲| **日韩最新| 精品中文字幕一区| 欧美韩国日本一区| 暧暧视频在线免费观看| 欧美在线一区二区视频| 免费看日韩精品| 日本一二三区视频免费高清| 日韩精品视频三区| 亚洲成av人片一区二区密柚| 欧美国产日韩激情| 91高清视频免费看| www.成人网| 日韩精品福利视频| 亚洲福利一区二区| 国产精品99久久免费| 欧美日韩成人一区二区三区| 洋洋成人永久网站入口| 97久久中文字幕| 亚洲精品国产精品国自产观看| 亚洲男人电影天堂| 女生影院久久| 国产欧美在线一区二区| 亚洲欧洲日韩av| 鲁鲁在线中文| 女同一区二区| 欧美性猛交xxxx乱大交极品| 精品国产一区二区三区成人影院| 亚洲色婷婷久久精品av蜜桃| 欧美日韩精品综合在线| 色999日韩| 中文字幕高清20页| 色爱精品视频一区| 免费在线欧美视频| av在线收看| 成人免费观看网址| 亚洲色图一区二区三区| 国产午夜久久av| 黄色一级片在线看| 日韩精品视频中文在线观看| 日韩一级精品| 国产高清视频在线观看| 国产精品国产亚洲伊人久久| 亚洲国产精品高清| 写真福利精品福利在线观看| 热re99久久精品国99热蜜月| 欧美性精品220| 欧美久久综合网| aaaaa毛片| 992tv成人免费影院| 92国产精品观看| 99riav视频一区二区| 精品一区二区三区毛片| 欧美大片日本大片免费观看| 国产亚洲亚洲| 免费黄色网址在线观看| http;//www.99re视频| 午夜精品久久久久久久99水蜜桃| 精品福利网址导航| 小泽玛利亚视频在线观看| 欧美精品在线第一页| 久久精品在线免费观看| www999久久| wwwwxxxx日韩| 日韩av电影在线播放| 亚洲电影中文字幕在线观看| 国产精品久久占久久| 极品美乳网红视频免费在线观看| 国产伦精品一区二区三区高清版| 欧美日韩精品欧美日韩精品一| 在线亚洲欧美| 欧洲一区二区三区| 免费看日b视频| 久久成人精品视频| 亚洲欧洲制服丝袜| 欧美在线免费一级片| 麻豆视频在线免费观看| 亚洲一区bb| 按摩亚洲人久久| 国产精品卡一卡二| 久久在线电影| 国产中文字幕在线看| 日本视频一区二区不卡| 亚洲人成77777在线观看网| 久久久精品免费网站| 精品freesex老太交| 95在线视频| 欧美三级午夜理伦三级老人| 日韩中文字幕不卡视频| 一区二区三区在线免费| 亚洲午夜极品| 深夜成人影院| 97高清视频| 狼狼综合久久久久综合网| 国产亚洲成精品久久| 亚洲精选一二三| 老鸭窝91久久精品色噜噜导演| 成人福利片在线| 视频免费裸体网站| 亚洲成人一区二区三区| 久久久久久噜噜噜久久久精品| 欧美日韩国产精品一区| 日本欧美一区二区| 日韩精品视频中文字幕| 在线看三级网站视频| 亚洲一卡二卡三卡| 97精品一区二区视频在线观看| 欧美亚洲尤物久久| av综合在线播放| 狠狠噜噜久久| 国产 日韩 欧美| 在线看黄色av| 激情婷婷综合网| 任我爽在线视频精品一| 亚洲成**性毛茸茸| 日韩精品丝袜美腿| 网曝91综合精品门事件在线| 中文字幕av在线| 国产精品超碰| 久久人人97超碰国产公开结果| 国产伦理一区| 久久久久国产精品一区二区| 亚洲欧美大片| 欧美日韩调教| 亚洲视频免费在线观看| 婷婷国产v国产偷v亚洲高清| 亚洲午夜私人影院| 亚洲第一色在线| 免费在线一区二区| 欧美大片日本大片免费观看| 国产欧美日韩视频在线观看|