国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

后Hadoop時代的大數據架構

大數據 Hadoop
提到大數據分析平臺,不得不說Hadoop系統,Hadoop到現在也超過10年的歷史了,很多東西發生了變化,版本也從0.x 進化到目前的2.6版本。我把2012年后定義成后Hadoop平臺時代,這不是說不用Hadoop,而是像NoSQL (Not Only SQL)那樣,有其他的選型補充。我在知乎上也寫過Hadoop的一些入門文章 如何學習Hadoop – 董飛的回答,為了給大家有個鋪墊,簡單講一些相關開源組件。

背景篇

  • Hadoop: 開源的數據分析平臺解決了大數據(大到一臺計算機無法進行存儲,一臺計算機無法在要求的時間內進行處理)的可靠存儲和處理。適合處理非結構化數據,包括HDFS,MapReduce基本組件。
  • HDFS:提供了一種跨服務器的彈性數據存儲系統。
  • MapReduce:技術提供了感知數據位置的標準化處理流程:讀取數據,對數據進行映射(Map),使用某個鍵值對數據進行重排,然后對數據進行化簡(Reduce)得到最終的輸出。
  • Amazon Elastic Map Reduce(EMR): 托管的解決方案,運行在由Amazon Elastic Compute Cloud(EC2)和Simple Strorage Service(S3)組成的網絡規模的基礎設施之上。如果你需要一次性的或不常見的大數據處理,EMR可能會為你節省開支。但EMR是高度優化成與S3 中的數據一起工作,會有較高的延時。
  • Hadoop 還包含了一系列技術的擴展系統,這些技術主要包括了Sqoop、Flume、Hive、Pig、Mahout、Datafu和HUE等。
  1. Pig:分析大數據集的一個平臺,該平臺由一種表達數據分析程序的高級語言和對這些程序進行評估的基礎設施一起組成。
  2. Hive:用于Hadoop的一個數據倉庫系統,它提供了類似于SQL的查詢語言,通過使用該語言,可以方便地進行數據匯總,特定查詢以及分析。
  3. Hbase:一種分布的、可伸縮的、大數據儲存庫,支持隨機、實時讀/寫訪問。
  4. Sqoop:為高效傳輸批量數據而設計的一種工具,其用于Apache Hadoop和結構化數據儲存庫如關系數據庫之間的數據傳輸。
  5. Flume:一種分布式的、可靠的、可用的服務,其用于高效地搜集、匯總、移動大量日志數據。
  6. ZooKeeper:一種集中服務,其用于維護配置信息,命名,提供分布式同步,以及提供分組服務。
  • Cloudera:最成型的Hadoop發行版本,擁有最多的部署案例。提供強大的部署、管理和監控工具。開發并貢獻了可實時處理大數據的Impala項目。
  • Hortonworks:使用了100%開源Apache Hadoop提供商。開發了很多增強特性并提交至核心主干,這使得Hadoop能夠在包括Windows Server和Azure在內平臺上本地運行。
  • MapR:獲取更好的性能和易用性而支持本地Unix文件系統而不是HDFS。提供諸如快照、鏡像或有狀態的故障恢復等高可用性特性。領導著Apache Drill項目,是Google的Dremel的開源實現,目的是執行類似SQL的查詢以提供實時處理。

#p#

原理篇

數據存儲

我們的目標是做一個可靠的,支持大規模擴展和容易維護的系統。計算機里面有個locality(局部性定律),如圖所示。從下到上訪問速度越來越快,但存儲代價更大。

 

后Hadoop時代的大數據架構

相對內存,磁盤和SSD就需要考慮數據的擺放, 因為性能會差異很大。磁盤好處是持久化,單位成本便宜,容易備份。但隨著內存便宜,很多數據集合可以考慮直接放入內存并分布到各機器上,有些基于 key-value, Memcached用在緩存上。內存的持久化可以通過 (帶電池的RAM),提前寫入日志再定期做Snapshot或者在其他機器內存中復制。當重啟時需要從磁盤或網絡載入之前狀態。其實寫入磁盤就用在追加日 志上面 ,讀的話就直接從內存。像VoltDB, MemSQL,RAMCloud 關系型又基于內存數據庫,可以提供高性能,解決之前磁盤管理的麻煩。

 

后Hadoop時代的大數據架構

HyperLogLog & Bloom Filter & CountMin Sketch

都是是應用于大數據的算法,大致思路是用一組相互獨立的哈希函數依次處理輸入。HyperLogLog 用來計算一個很大集合的基數(即合理總共有多少不相同的元素),對哈希值分塊計數:對高位統計有多少連續的0;用低位的值當做數據塊。 BloomFilter,在預處理階段對輸入算出所有哈希函數的值并做出標記。當查找一個特定的輸入是否出現過,只需查找這一系列的哈希函數對應值上有沒 有標記。對于BloomFilter,可能有False Positive,但不可能有False Negative。BloomFilter可看做查找一個數據有或者沒有的數據結構(數據的頻率是否大于1)。CountMin Sketch在BloomFilter的基礎上更進一步,它可用來估算某一個輸入的頻率(不局限于大于1)。

CAP Theorem

后Hadoop時代的大數據架構

簡單說是三個特性:一致性,可用性和網絡分區,最多只能取其二。設計不同類型系統要多去權衡。分布式系統還有很多算法和高深理論,比如:Paxos算法(paxos分布式一致性算法–講述諸葛亮的反穿越),Gossip協議(Cassandra學習筆記之Gossip協議),Quorum (分布式系統)時間邏輯,向量時鐘(一致性算法之四: 時間戳和向量圖),拜占庭將軍問題二階段提交等,需要耐心研究。

#p#

技術篇

 

技術篇

來自:http://thinkbig.teradata.com/leading_big_data_technologies/big-data-reference-architecture/

根據不同的延遲要求(SLA),數據量存儲大小, 更新量多少,分析需求,大數據處理的架構也需要做靈活的設計。上圖就描述了在不同領域中大數據組件。

說大數據的技術還是要先提Google,Google 新三輛馬車,Spanner, F1, Dremel

Spanner高可擴展、多版本、全球分布式外加同步復制特性的谷歌內部數據庫,支持外部一致性的分布式事務;設計目標是橫跨全球上百個數據中心,覆蓋百萬臺服務器,包含萬億條行記錄!(Google就是這么霸氣^-^)

F1: 構建于Spanner之上,在利用Spanner的豐富特性基礎之上,還提供分布式SQL、事務一致性的二級索引等功能,在AdWords廣告業務上成功代替了之前老舊的手工MySQL Shard方案。

Dremel: 一種用來分析信息的方法,它可以在數以千計的服務器上運行,類似使用SQL語言,能以極快的速度處理網絡規模的海量數據(PB數量級),只需幾秒鐘時間就能完成。

Spark

 

技術篇

2014年最火的大數據技術Spark,有什么關于 Spark 的書推薦? – 董飛的回答 做了介紹。主要意圖是基于內存計算做更快的數據分析。同時支持圖計算,流式計算和批處理。Berkeley AMP Lab的核心成員出來成立公司Databricks開發Cloud產品。

Flink

后Hadoop時代的大數據架構

使用了一種類似于SQL數據庫查詢優化的方法,這也是它與當前版本的Apache Spark的主要區別。它可以將全局優化方案應用于某個查詢之上以獲得更佳的性能。

Kafka

 

后Hadoop時代的大數據架構

Announcing the Confluent Platform 1.0 Kafka 描述為 LinkedIn 的“中樞神經系統”,管理從各個應用程序匯聚到此的信息流,這些數據經過處理后再被分發到各處。不同于傳統的企業信息列隊系統,Kafka 是以近乎實時的方式處理流經一個公司的所有數據,目前已經為 LinkedIn, Netflix, Uber 和 Verizon 建立了實時信息處理平臺。Kafka 的優勢就在于近乎實時性。

Storm

后Hadoop時代的大數據架構

Handle Five Billion Sessions a Day in Real Time,Twitter的實時計算框架。所謂流處理框架,就是一種分布式、高容錯的實時計算系統。Storm令持續不斷的流計算變得容易。經常用于在實時分析、在線機器學習、持續計算、分布式遠程調用和ETL等領域。

Samza

 

后Hadoop時代的大數據架構

LinkedIn主推的流式計算框架。與其他類似的Spark,Storm做了幾個比較。跟Kafka集成良好,作為主要的存儲節點和中介。

Lambda architecture

Nathan寫了文章《如何去打敗CAP理論》How to beat the CAP theorem,提出Lambda Architecture,主要思想是對一些延遲高但數據量大的還是采用批處理架構,但對于即時性實時數據使用流式處理框架,然后在之上搭建一個服務層去合并兩邊的數據流,這種系統能夠平衡實時的高效和批處理的Scale,看了覺得腦洞大開,確實很有效,被很多公司采用在生產系統中。

后Hadoop時代的大數據架構

Summingbird

Lambda架構的問題要維護兩套系統,Twitter開發了Summingbird來做到一次編程,多處運行。將批處理和流處理無縫連接,通過整合批處理與流處理來減少它們之間的轉換開銷。下圖就解釋了系統運行時。

 

后Hadoop時代的大數據架構

NoSQL

數據傳統上是用樹形結構存儲(層次結構),但很難表示多對多的關系,關系型數據庫就是解決這個難題,最近幾年發現關系型數據庫也不靈了,新型 NoSQL出現 如Cassandra,MongoDB,Couchbase。NoSQL 里面也分成這幾類,文檔型,圖運算型,列存儲,key-value型,不同系統解決不同問題。沒一個one-size-fits-all 的方案。

 

后Hadoop時代的大數據架構

Cassandra

大數據架構中,Cassandra的主要作用就是存儲結構化數據。DataStax的Cassandra是一種面向列的數據庫,它通過分布式架構提供高可用性及耐用性的服務。它實現了超大規模的集群,并提供一種稱作“最終一致性”的一致性類型,這意味著在任何時刻,在不同服務器中的相同數據庫條目可以有不同的值。

SQL on Hadoop

開源社區業出現了很多 SQL-on-Hadoop的項目,著眼跟一些商業的數據倉庫系統競爭。包括Apache Hive, Spark SQL, Cloudera Impala, Hortonworks Stinger, Facebook Presto, Apache Tajo,Apache Drill。有些是基于Google Dremel設計。

Impala

Cloudera公司主導開發的新型查詢系統,它提供SQL語義,能夠查詢存儲在Hadoop的HDFS和HBase中的PB級大數據,號稱比Hive快5-10倍,但最近被Spark的風頭給罩住了,大家還是更傾向于后者。

Drill

Apache社區類似于Dremel的開源版本—Drill。一個專為互動分析大型數據集的分布式系統。

Druid

在大數據集之上做實時統計分析而設計的開源數據存儲。這個系統集合了一個面向列存儲的層,一個分布式、shared-nothing的架構,和一個高級的索引結構,來達成在秒級以內對十億行級別的表進行任意的探索分析。

Berkeley Data Analytics Stack

 

后Hadoop時代的大數據架構

上面說道Spark,在Berkeley AMP lab 中有個更宏偉的藍圖,就是BDAS,里面有很多明星項目,除了Spark,還包括:

Mesos:一個分布式環境的資源管理平臺,它使得Hadoop、MPI、Spark作業在統一資源管理環境下執行。它對Hadoop2.0支持很好。Twitter,Coursera都在使用。

Tachyon:是一個高容錯的分布式文件系統,允許文件以內存的速度在集群框架中進行可靠的共享,就像Spark和MapReduce那樣。項目發起人李浩源說目前發展非常快,甚至比Spark當時還要驚人,已經成立創業公司Tachyon Nexus.

BlinkDB:也很有意思,在海量數據上運行交互式 SQL 查詢的大規模并行查詢引擎。它允許用戶通過權衡數據精度來提升查詢響應時間,其數據的精度被控制在允許的誤差范圍內。

Cloudera

 

后Hadoop時代的大數據架構

Hadoop老大哥提出的經典解決方案。

HDP (Hadoop Data Platform)

 

后Hadoop時代的大數據架構

Hortonworks 提出的架構選型。

Redshift

后Hadoop時代的大數據架構

Amazon RedShift是 ParAccel一個版本。它是一種(massively parallel computer)架構,是非常方便的數據倉庫解決方案,SQL接口,跟各個云服務無縫連接,***特點就是快,在TB到PB級別非常好的性能,我在工作中 也是直接使用,它還支持不同的硬件平臺,如果想速度更快,可以使用SSD。

Netflix

 

后Hadoop時代的大數據架構

完全基于AWS的數據處理解決方案。

Intel

 

后Hadoop時代的大數據架構

參考鏈接

The Hadoop Ecosystem Table

How to beat the CAP theorem

Lambda Architecture

Questioning the Lambda Architecture

責任編輯:王雪燕 來源: 知乎
相關推薦

2018-01-12 16:19:41

Hadoop數據庫MySQL

2013-08-20 09:26:03

大數據時代hadoop

2017-10-26 09:31:14

Hadoop維度建模Kimball

2016-09-21 12:44:15

大數據TalkingData

2017-10-25 14:15:55

大數據Hadoop維度建模

2012-05-31 15:56:23

Hadoop大數據

2014-11-11 10:47:19

hadoop數據流

2017-03-06 10:45:29

HadoopHDFS大數據

2013-06-13 09:42:11

大數據

2021-10-29 22:45:47

大數據算法技術

2015-12-14 17:52:06

ENI經濟和信息化網

2017-06-09 05:55:56

存儲機器學習人工智能

2011-09-02 10:59:02

大數據數據分析Hadoop

2013-09-17 18:24:46

SAP

2013-12-02 10:02:30

大數據時代

2021-09-30 16:28:34

大數據數據管理企業

2017-01-03 10:23:18

大數據隱私保護

2013-06-06 10:32:48

大數據

2013-08-29 11:24:31

大數據

2015-09-15 09:53:57

大數據時代創業
點贊
收藏

51CTO技術棧公眾號

2020国产精品自拍| 国产精品理伦片| 91亚洲男人天堂| 亚洲精品欧美在线| 国产精品丝袜久久久久久高清 | 97色在线视频| 中文字幕在线亚洲三区| 中文字幕在线亚洲三区| www日韩在线观看| 亚洲 欧美 综合 另类 中字| 日本免费视频| 在线看片免费人成视久网| 在线中文av| 久久久久久久久久久久电影| 麻豆精品视频在线观看免费| 欧美精品一区二区三区高清aⅴ| 91.麻豆视频| 日韩最新av在线| 欧美精品一区二区精品网| 亚洲成人一区二区三区| 亚洲人成在线网站| 在线成人免费观看| 国内精品二区| 免费成人av电影| 日韩激情一区| 色天使色偷偷av一区二区| 无码精品a∨在线观看中文| 亚洲成人三级| 欧美激情欧美| 91影院在线免费观看| 欧美日韩黄视频| 国产精品乱码视频| 第一页在线观看| 人人狠狠综合久久亚洲| 久久精品在线视频| 成年在线观看免费人视频| 国产日韩欧美电影| 成人av一级片| 91丝袜国产在线播放| 国产91在线视频观看| 伦一区二区三区中文字幕v亚洲| 亚洲国产精品国自产拍av秋霞| 在线免费观看的av| 亚洲色在线视频| 日本超碰一区二区| 9.1国产丝袜在线观看| 久久久久久久久99精品大| 精品国产乱码久久久久久88av| 久久综合导航| 男人天堂1024| 亚洲高清在线精品| 亚洲小说区图片区都市| 日韩在线观看免费网站 | 欧美丰满少妇xxxxx| 沈樵精品国产成av片| 福利视频久久| 国产不卡在线视频| 中文字幕电影在线观看| 日韩一区二区电影| 97精品久久| 欧美极品一区二区| 国产日产精品一区| 在线观看免费网站黄| 伊人久久综合97精品| 日韩国产综合| 国产精品国三级国产av| 亚洲风情在线资源站| 神马久久午夜| 国产精品一区二区3区| 精品午夜一区二区三区在线观看 | 国产精品一区二区性色av| 在线国产1区| 日韩电影免费网址| 精品国产1区2区| 中文字幕2019第三页| 中文字幕av亚洲精品一部二部| 精品国产一区二区在线观看| 成人免费xxxxx在线视频| 午夜av一区| 在线观看亚洲精品视频| 成人欧美一区二区三区1314| 国产精品久久77777| 自拍偷拍欧美视频| 884aa四虎影成人精品一区| 欧洲成人一区二区| 国产精品色在线网站| 亚洲人成欧美中文字幕| 99热手机在线观看| 日韩高清在线不卡| 欧美麻豆久久久久久中文| 成人免费视屏| 亚洲国产精品国自产拍av| 欧美丝袜自拍制服另类| 亚洲 欧美 日韩系列| 97久久夜色精品国产| 国产精品96久久久久久| 老司机午夜av| 岛国av一区二区在线在线观看| 黄页网站在线| 欧美成人h版在线观看| 国产福利小视频在线观看| 亚洲无人区一区| 精品少妇一区二区| 欧美大奶一区二区| 任我爽在线视频精品一| 国产精品久久夜| aa在线视频| 97在线视频精品| 久久久久免费| 国产精品亚洲αv天堂无码| 欧美精品一级二级三级| 图片婷婷一区| 久久男人资源站| 91国产免费观看| 日韩中文在线| 亚洲欧洲国产精品久久| 亚洲国产一区视频| 日韩美女在线看免费观看| 国产欧美丝袜| 亚洲一区视频在线| 人人玩人人添人人澡欧美| 91免费网站视频| 欧美亚洲国产一区二区三区va | 国产在线视频一区二区三区| 永久免费在线| 69视频在线免费观看| 久久av老司机精品网站导航| 精彩国产在线| 欧美最顶级的aⅴ艳星| 成人一级黄色片| heyzo高清中文字幕在线| 成人免费看片网址| 福利电影一区二区| 操你啦在线视频| 亚洲中文字幕无码一区二区三区| 日韩一二在线观看| 亚洲aaa级| 免费99热在线观看| 日韩在线观看免费全集电视剧网站 | 免费在线一级视频| 日韩中文字幕网| 首页亚洲欧美制服丝腿| 日本人妖在线| 国产成人精品视| 成人国产电影网| 影视一区二区三区| 7777在线视频| 欧美精品一区二区三区蜜桃视频| 一本综合精品| √天堂资源地址在线官网| 91丨九色丨国产| 色哟哟一区二区三区| 亚洲精品a级片| 欧美日韩国产亚洲沙发| 亚洲qvod图片区电影| 欧美日韩免费不卡视频一区二区三区 | 亚洲激情在线观看| 噜噜噜躁狠狠躁狠狠精品视频| 国产无套粉嫩白浆在线2022年 | 2020国产精品视频| 中文字幕五月欧美| 精品无人区一区二区| 日本成人在线免费视频| 久久综合免费视频| 国产精品久久久久久一区二区三区| 成人亚洲精品| 一插菊花综合| 国产精品免费久久久久影院| 欧美日韩国产精品专区| 在线欧美日韩| 国产免费拔擦拔擦8x在线播放| 中文字幕色呦呦| 中文字幕精品一区二区精品| 99精品视频在线观看| 精品国产一级| 黄色资源在线看| 国产综合精品一区二区三区| 欧美日韩高清一区| 国产91高潮流白浆在线麻豆| 传媒av在线| 国产伦精品一区二区三区高清版| 精品88久久久久88久久久| 国产综合久久久久影院| 亚洲精品小区久久久久久| 亚州色图欧美色图| 欧美日韩一区二区视频在线| 国产精品国产自产拍高清av王其| 99热99精品| 亚洲免费在线| av在线播放一区二区| 性欧美videossex精品| 亚州欧美日韩中文视频| 一区二区成人在线观看| 国产高清一区日本| 三级毛片在线免费看| 日本一区二区三区四区在线观看| 国产亚洲精品综合一区91| 亚洲精品视频自拍| 妖精一区二区三区精品视频 | 秋霞电影一区二区|