国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

大數據平臺架構及主流技術棧

大數據
互聯網和移動互聯網技術開啟了大規模生產、分享和應用數據的大數據時代。面對如此龐大規模的數據,如何存儲?如何計算?各大互聯網巨頭都進行了探索。本文主要介紹了大數據平臺架構及主流技術棧。

 互聯網和移動互聯網技術開啟了大規模生產、分享和應用數據的大數據時代。面對如此龐大規模的數據,如何存儲?如何計算?各大互聯網巨頭都進行了探索。Google的三篇論文 GFS(2003),MapReduce(2004),Bigtable(2006)為大數據技術奠定了理論基礎。隨后,基于這三篇論文的開源實現Hadoop被各個互聯網公司廣泛使用。在此過程中,無數互聯網工程師基于自己的實踐,不斷完善和豐富Hadoop技術生態。經過十幾年的發展,如今的大數據技術生態已相對成熟,圍繞大數據應用搭建的平臺架構和技術選型也逐漸趨向統一。

數據采集
“巧婦難為無米之炊”,沒有數據也就沒有后面的一切,數據采集作為基礎至關重要。采集的數據主要由業務系統產生,包括存儲在關系型DB中的結構化數據和記錄在日志文件中的半結構化數據。Sqoop用于從關系型DB中采集數據,Flume用于日志采集。實時計算由于對時效性要求比較高,它一般采用Kafka和業務系統建立實時數據通道,完成數據傳輸。

Sqoop是Apache的一個獨立項目,始于2009年。Sqoop是一個用來將Hadoop和關系型數據庫中的數據相互轉移的工具,可以將一個關系型數據庫(例如 :MySQL ,Oracle ,Postgres等)中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關系型數據庫中。其官方地址是 http://sqoop.apache.org/。官網介紹如下:

Apache Sqoop(TM) is a tool designed for efficiently transferring bulk data between Apache Hadoop and structured datastores such as relational databases.

http://sqoop.apache.org/

Flume最早是Cloudera提供的日志收集系統,是Apache下的一個孵化項目。Flume是一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸的系統,Flume支持在日志系統中定制各類數據發送方,用于收集數據;同時,Flume提供對數據進行簡單處理,并寫到各種數據接受方(可定制)的能力。其官方地址是 http://flume.apache.org/。官網介紹如下:

Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on streaming data flows.

http://flume.apache.org/

離線計算
離線計算是指在計算開始前已知所有輸入數據,輸入數據不會產生變化,且在解決一個問題后就要立即得出結果的前提下進行的計算。離線計算處理的數據是靜態不變的,但是數據量非常大。因此如何存儲和計算海量數據是離線計算最大的技術挑戰。這也是Hadoop技術生態核心解決的問題。如果你對大數據開發感興趣,想系統學習大數據的話,可以加入大數據技術學習交流扣扣君羊:522189307

HDFS是基于谷歌GFS論文實現的開源分布式文件系統,主要解決海量數據的存儲問題。系統架構上,HDFS是一個典型的主從分布式架構。主節點叫NameNode,從節點叫DataNode。NameNode負責集群的全局管理,處理來自客戶端的讀寫請求。DataNode是實際存儲文件的數據塊,執行來自主節點的讀寫命令。HDFS保證了CAP中的CP,追求強一致高吞吐設計,不適合低延遲的應用場景。此外,HDFS采用流數據模式訪問和處理文件,只支持追加(append-only)的方式寫入數據,不支持文件任意offset的修改。它的主要使用場景是作為數倉的底層存儲系統。

離線計算的核心計算模型基于MapReduce實現。Hive用類SQL的方式,簡化了MapReduce的腳本實現過程,目前已成為搭建數倉的首選工具。Spark將MapReduce對磁盤的多點I/O改為內存中的多線程實現,將中間處理數據存于內存來減少磁盤IO操作,速度比傳統MapReduce快10倍。此外,Spark還支持流式計算,使它在實時計算中也占有一席之地。Presto也是完全基于內存的并行計算模型,查詢性能好,但是受內存大小限制,更多用于OLAP查詢。由于離線計算對時延要求不高,完全基于內存的計算支撐不起數倉大量的ETL過程,在實際場景中,ETL過程大部分還是基于Hive的HSQL實現。

實時計算
實時計算與離線計算相對應。離線計算在計算開始前已經知道所有的輸入數據。實時計算在計算開始前并不知道所有的輸入數據,輸入數據以序列化的方式一個個輸入并進行處理。實時計算過程處理的數據量不大,但是要求數據處理的速度非常快。如果說離線計算看重的是高吞吐能力,那么實時計算看重的就是快響應能力。為了實現快響應,實時計算通常會采用流計算(Stream Computing)方式。

流計算與批計算(Batch Computing)相對應,兩者區別在于處理的數據粒度不同。批計算以數據塊為單位進行數據處理,流計算以單條數據記錄為單位進行數據處理。批處理的吞吐效率高于流處理,但是由于數據到達不會立即處理,所以延遲比流處理要高。批處理主要用于離線計算,流處理主要用于實時計算。但這不是絕對的,實時計算有時為了提高吞吐率,也會犧牲一些延時,比如Spark Streaming采用微批量(micro-batch,spark中稱為Discretized Stream)的方式進行實時計算。除Spark外,Storm和Flink也是主流的實時計算框架,它們都是基于Native Streaming實現,延遲(latency)非常低,Storm在幾十毫秒級別,Flink在百毫秒級別。

Storm始于2011年,是Twitter開源的分布式實時大數據處理框架,被業界稱為實時版Hadoop,2013年開源給Apache。其官方地址是 http://storm.apache.org/。官網介紹如下:

Apache Storm is a free and open source distributed realtime computation system. Apache Storm makes it easy to reliably process unbounded streams of data, doing for realtime processing what Hadoop did for batch processing.

http://storm.apache.org/

Flink誕生于歐洲的一個大數據研究項目StratoSphere。該項目是柏林工業大學的一個研究性項目,早期專注于批計算。2014 年,StratoSphere 項目中的核心成員孵化出 Flink,并在同年將 Flink 捐贈 Apache。其官方地址是 https://flink.apache.org/。官網介紹如下:

Apache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded data streams. Flink has been designed to run in all common cluster environments, perform computations at in-memory speed and at any scale.

https://flink.apache.org/

Flink計算的主流方向被定位成流計算,但它和Spark一樣是流批一體的。Spark用批模擬流實現流計算,Flink用流模擬批來支持批處理。與Storm和Spark相比,Flink最大的優勢在于它實現了有狀態(Stateful)的計算,這個能力讓它可以提供Exactly-Once語義保證,大大提高了程序員的編程效率。在眾多的流計算框架中,Flink是最接近 Dataflow 模型的流計算框架,業內評價它是繼Spark之后的第四代大數據計算引擎。現在國內互聯網公司,包括BAT和TMD都選擇了Flink。

除了計算問題外,對于實時計算還有一個很重要的問題:如何建立實時輸入的數據流通道。Kafka就是解決這個問題的最佳利器。Kafka起源于LinkedIn,2011年開源給Apache。其官方地址是 http://kafka.apache.org/。官網介紹如下:

Kafka is used for building real-time data pipelines and streaming apps. It is horizontally scalable, fault-tolerant, wicked fast, and runs in production in thousands of companies.

http://kafka.apache.org/

技術選型上,經常會拿Kafka跟MQ中間件(比如RabbitMQ、RocketMQ)進行比較。但Kafka設計的初衷是做日志統計分析,不是以可靠消息傳輸為設計目標。比如Kafka中消息可能會重復或亂序,它也不支持事務消息等。另外,Kafka采用批處理的方式傳遞消息,吞吐量高,但會有延遲,時效性不如MQ中間件,這也是為什么不建議用Kafka替代MQ中間件的原因。

OLAP
大數據的主要應用之一就是做數據分析,更專業的表述叫OLAP。OLAP是On Line Analytical Processing(聯機分析處理)的縮寫,與OLTP(On Line Transaction Processing, 聯機事務處理)相對應。OLTP是傳統的關系型數據庫的主要應用,是一種操作型數據處理。OLAP是數據倉庫的主要應用,是一種分析型數據處理。

OLAP分析處理的數據一般采用維度建模,基于“維度”的分析操作包括:鉆取(上鉆roll up和下鉆drill down)、切片(slice)和切塊(dice)、以及旋轉(pivot)等。按數據存儲方式不同,OLAP引擎分為ROLAP、MOLAP和HOLAP三種(如下圖所示)。按實現架構不同,OLAP引擎可分為:MPP(Massively Parallel Processor, 大規模并行處理)架構、預處理架構和搜索引擎架構。

基于MPP架構的ROLAP引擎:Presto

利用關系模型來處理OLAP查詢,通過并發來提高查詢性能。Presto是Facebook于2012年開發,2013年開源的,完全基于內存的并⾏計算,分布式SQL交互式查詢引擎。其官網地址是:https://prestodb.io/ 。

基于預計算架構的MOLAP引擎:Druid、Kylin

Kylin是完全的預計算引擎,通過枚舉所有維度的組合,建立各種Cube進行提前聚合,以HBase為基礎的OLAP引擎。其官網地址是:http://kylin.apache.org/ 。

Druid則是輕量級的提前聚合(roll-up),同時根據倒排索引以及bitmap提高查詢效率的時間序列數據和存儲引擎。其官網地址是:https://druid.apache.org/ 。

基于搜索引擎架構的OLAP:ES

ES是典型的搜索引擎類的架構系統,在入庫時將數據轉換為倒排索引,采用Scatter-Gather計算模型提高查詢性能。- 對于搜索類的查詢效果較好,但當數據量較大時,對于Scan類和聚合類為主的查詢性能較低。

看數:敏捷BI工具
看數解決數據可視化問題,幫助BI進行數據分析,支持企業決策,實現商業價值。這個領域,國內外已經有很多成熟的軟件,比如QlikView、TableAU、FineBI、PowerBI、QuickBI等。大部分BI軟件都是商業軟件,不支持私有化部署或者私有化部署成本很高。并且,BI工具的用戶定位偏專業數據分析師,對普通人來說有一定的學習使用門檻。隨著前端數據可視化組件的不斷完善(比如Highcharts、百度的Echats、阿里的antV(G2)等),許多互聯網公司會選擇定制的數據可視化方案。一些大公司也會自研BI工具,比如滴滴的數易。

責任編輯:梁菲 來源: 今日頭條
相關推薦

2019-12-12 10:22:16

大數據平臺大數據安全大數據

2017-06-22 11:03:58

大數據大數據平臺架構技術

2016-01-28 10:26:59

大數據平臺大數據采集架構分析

2017-08-10 14:30:52

大數據數據采集架構分析

2021-08-16 13:54:23

大數據深信服

2021-02-22 10:55:59

大數據大數據平臺數據平臺建設

2020-12-17 19:15:48

大數據大數據平臺架構數據平臺建設

2019-12-24 08:11:39

大數據架構數據開發

2011-08-12 11:14:42

大數據數據分析平臺架構

2019-07-31 14:51:21

HBase數據庫數據模型

2014-07-24 09:08:07

大數據平臺架構

2017-06-20 09:54:18

大數據架構數據分析

2017-02-28 21:23:34

大數據采集架構分析

2017-06-19 13:10:59

大數據大數據平臺架構

2017-12-01 19:02:33

Airbnb大數據平臺

2009-06-16 14:21:49

Eclipse平臺架構Eclipse RCP

2021-02-22 11:03:25

大數據大數據平臺架構

2020-09-15 18:46:54

數據平臺Lambda架構

2015-08-31 14:57:11

大數據處理

2017-01-07 11:45:43

醫療健康大數據虛擬化
點贊
收藏

51CTO技術棧公眾號

亚洲欧美日韩另类| 欧美三级日韩三级| 欧美在线亚洲在线| 伊人75在线| 欧美做受69| 午夜电影一区二区| 久久青青草原| √新版天堂资源在线资源| 亚洲三级色网| 亚洲欧美在线x视频| 九九热在线免费| 国产探花一区在线观看| 欧美大片日本大片免费观看| 99热自拍偷拍| 只有精品亚洲| 欧美一级二级在线观看| 中国成人亚色综合网站| 日韩免费精品| 国产91精品不卡视频| 欧美bbbxxxxx| 国产精品卡一卡二| 操一操视频一区| 综合久久伊人| 欧美一区二区三区啪啪| 看一级黄色录像| 91tv官网精品成人亚洲| 国产亚洲精品成人av久久ww| 91国内视频| 国产美女在线精品| 91国语精品自产拍在线观看性色| 9色在线视频网站| 亚洲精品高清视频在线观看| 91亚洲精品丁香在线观看| 三级在线播放| 久久久久久久久久电影| 日韩欧美视频第二区| 国产福利电影一区二区三区| 国产成人女人毛片视频在线| 精品视频一区二区三区四区五区| 国产一区二区日韩精品欧美精品| cao在线视频| 欧美另类一区二区三区| 超碰在线公开免费| 亚洲日本在线天堂| 18岁视频在线观看| 99久久国产综合精品女不卡| 国产主播在线看| 美女视频黄a大片欧美| 日本久久精品视频| 岛国成人av| xxx欧美精品| 国产精品欧美大片| 国产欧美精品日韩精品| 日韩激情一区| 久久久久亚洲精品| 羞羞色国产精品网站| 国产精品久久色| 人操人视频在线观看| 一本大道久久a久久精品综合| caoporm免费视频在线| 久久精品视频导航| 一区二区日本视频| 国产精品午夜久久久久久| 欧美刺激脚交jootjob| 免费短视频成人日韩| 亚洲一区二区精品在线| 国产精品第五页| 伊人久久视频| 精品乱码一区二区三区| 久久看人人爽人人| 亚洲精品大片| 国产一级揄自揄精品视频| 日本在线播放| 中文字幕一区二区在线观看| 国内外成人激情免费视频| 久久精品麻豆| 欧美一区欧美二区| 三级成人在线| 国产成人精品在线播放| 视频在线在亚洲| 国产成人久久777777| 欧美一级夜夜爽| swag国产精品一区二区| 精品在线一区| 亚洲国产美女搞黄色| 超碰在线图片| 亚洲欧美资源在线| 久久国产亚洲精品| 97碰碰碰免费公开在线视频| 亚洲人成电影网站色| 性色一区二区三区| 中文字幕校园春色| 午夜电影一区二区三区| 国产黄色片免费在线观看| 五月婷婷另类国产| 蜜臀av在线| 亚洲va欧美va在线观看| 国产凹凸在线观看一区二区| 中文字幕伦理免费在线视频 | 亚洲免费观看视频| 99亚洲乱人伦aⅴ精品| 亚洲老女人av| 欧美激情一区二区三区久久久| 日本一区中文字幕| 欧美三级黄网| 精品国产_亚洲人成在线| 欧美一区二区三区系列电影| 日韩亚洲国产欧美| 欧美jizzhd69巨大| 女人床在线观看| 美女mm1313爽爽久久久蜜臀| 一区二区三区四区在线免费视频| 中文字幕在线看视频国产欧美在线看完整 | 国产真实有声精品录音| 国产玉足榨精视频在线观看| 久久免费少妇高潮久久精品99| av在线播放不卡| av在线播放一区| 久久精品午夜福利| 国产精品成人品| 亚洲国产日韩欧美综合久久| 久久久久久久av麻豆果冻| 亚洲一区高清| 亚洲成av人片在线观看香蕉| 青青青爽久久午夜综合久久午夜| 欧美成人资源| 色资源网站在线观看| 天天干天天综合| 日韩美女在线看| 欧美久久一二三四区| 成人99免费视频| 日韩美女精品| 国产乱理伦片a级在线观看| 日本黄色播放器| 国产精品91久久久久久| 日韩一区和二区| 亚洲va在线va天堂| 黑人巨大精品欧美一区二区| 欧美a一区二区| 婷婷精品在线| 欧美人体一区二区三区| 亚洲综合在线网站| 一本一道久久a久久综合精品| 欧美精品激情在线| 五月婷婷久久丁香| 懂色av中文一区二区三区| 老牛精品亚洲成av人片| 丰满大乳少妇在线观看网站| 在线观看老湿视频福利| 影音先锋成人资源网站| 91久久中文字幕| 97免费在线视频| 国产成人av在线| 国产尤物一区二区在线| 久草在现在线| 国产一区二区色| 国产一区二区三区三区在线观看| 亚洲最新在线观看| 久久99国产精品麻豆| 欧美黄色一区二区| 清纯唯美综合亚洲| 伊人久久大香线蕉综合网蜜芽 | 成人午夜视频在线| 国产九九视频一区二区三区| 青青国产91久久久久久| 亚洲精品国产a久久久久久| 激情综合色综合久久综合| 国产日韩欧美| 可以看av的网站久久看| 伊人久久久大香线蕉综合直播| 伊人久久亚洲美女图片| 久久在线精品| 亚洲最大av| 国产精品久久天天影视| 精品999日本久久久影院| 欧美日韩免费看片| 国产成人精品一区二区三区在线| 国产精品久久久久77777丨| 日韩专区视频网站| 久久精品xxxxx| 91亚洲自偷观看高清| 美日韩一区二区| 亚洲国产精品久久久男人的天堂| 在线欧美一区二区| 日韩午夜在线观看视频| 亚洲性夜色噜噜噜7777| 日韩国产在线一区| 国产精品波多野结衣| www.com毛片| 男人的天堂www| av在线免费网站| 一区三区在线欧| 韩国亚洲精品| 久久久久久久欧美精品| 国产一区二区精品久久| 国产精品福利一区二区三区| 精品国产1区二区| 国产v亚洲v天堂无码| 中日韩美女免费视频网址在线观看| 亚州av一区二区|