国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

Apache Spark常見的三大誤解

大數據 Spark
最近幾年關于Apache Spark框架的聲音是越來越多,大家通過Google搜索更多關于Spark的信息。然而很多人對Apache Spark的認識存在誤解,在這篇文章中,將介紹我們對Apache Spark的幾個主要的誤解,以便給那些想將Apache Spark應用到其系統中的人作為參考。

最近幾年關于Apache Spark框架的聲音是越來越多,而且慢慢地成為大數據領域的主流系統。最近幾年Apache Spark和Apache Hadoop的Google趨勢可以證明這一點:

Apache Spark常見的三大誤解

上圖已經明顯展示出最近五年,Apache Spark越來越受開發者們的歡迎,大家通過Google搜索更多關于Spark的信息。然而很多人對Apache Spark的認識存在誤解,在這篇文章中,將介紹我們對Apache Spark的幾個主要的誤解,以便給那些想將Apache Spark應用到其系統中的人作為參考。這里主要包括以下幾個方面:

  • Spark是一種內存技術;
  • Spark要比Hadoop快 10x-100x;
  • Spark在數據處理方面引入了全新的技術

誤解一:Spark是一種內存技術

大家對Spark***的誤解就是其是一種內存技術(in-memory technology)。其實不是這樣的!沒有一個Spark開發者正式說明這個,這是對Spark計算過程的誤解。

我們從頭開始說明。什么樣的技術才能稱得上是內存技術?在我看來,就是允許你將數據持久化(persist)在RAM中并有效處理的技術。然而Spark并不具備將數據數據存儲在RAM的選項,雖然我們都知道可以將數據存儲在HDFS, Tachyon, HBase, Cassandra等系統中,但是不管是將數據存儲在磁盤還是內存,都沒有內置的持久化代碼( native persistence code)。它所能做的事就是緩存(cache)數據,而這個并不是數據持久化(persist)。已經緩存的數據可以很容易地被刪除,并且在后期需要時重新計算。

但是即使有這些信息,仍然有些人還是會認為Spark就是一種基于內存的技術,因為Spark是在內存中處理數據的。這當然是對的,因為我們無法使用其他方式來處理數據。操作系統中的API都只能讓你把數據從塊設備加載到內存,然后計算完的結果再存儲到塊設備中。我們無法直接在HDD設備上計算;所以現代系統中的所有處理基本上都是在內存中進行的。

雖然Spark允許我們使用內存緩存以及LRU替換規則,但是你想想現在的RDBMS系統,比如Oracle 和 PostgreSQL,你認為它們是如何處理數據的?它們使用共享內存段(shared memory segment)作為table pages的存儲池,所有的數據讀取以及寫入都是通過這個池的,這個存儲池同樣支持LRU替換規則;所有現代的數據庫同樣可以通過LRU策略來滿足大多數需求。但是為什么我們并沒有把Oracle 和 PostgreSQL稱作是基于內存的解決方案呢?你再想想Linux IO,你知道嗎?所有的IO操作也是會用到LRU緩存技術的。

你現在還認為Spark在內存中處理所有的操作嗎?你可能要失望了。比如Spark的核心:shuffle,其就是將數據寫入到磁盤的。如果你再SparkSQL中使用到group by語句,或者你將RDD轉換成PairRDD并且在其之上進行一些聚合操作,這時候你強制讓Spark根據key的哈希值將數據分發到所有的分區中。shuffle的處理包括兩個階段:map 和 reduce。Map操作僅僅根據key計算其哈希值,并將數據存放到本地文件系統的不同文件中,文件的個數通常是reduce端分區的個數;Reduce端會從 Map端拉取數據,并將這些數據合并到新的分區中。所有如果你的RDD有M個分區,然后你將其轉換成N個分區的PairRDD,那么在shuffle階段將會創建 M*N 個文件!雖然目前有些優化策略可以減少創建文件的個數,但這仍然無法改變每次進行shuffle操作的時候你需要將數據先寫入到磁盤的事實!

所以結論是:Spark并不是基于內存的技術!它其實是一種可以有效地使用內存LRU策略的技術。

誤解二:Spark要比Hadoop快 10x-100x

相信大家在Spark的官網肯定看到了如下所示的圖片

Apache Spark常見的三大誤解

這個圖片是分別使用 Spark 和 Hadoop 運行邏輯回歸(Logistic Regression)機器學習算法的運行時間比較,從上圖可以看出Spark的運行速度明顯比Hadoop快上百倍!但是實際上是這樣的嗎?大多數機器學習算法的核心部分是什么?其實就是對同一份數據集進行相同的迭代計算,而這個地方正是Spark的LRU算法所驕傲的地方。當你多次掃描相同的數據集時,你只需要在***訪問時加載它到內存,后面的訪問直接從內存中獲取即可。這個功能非常的棒!但是很遺憾的是,官方在使用Hadoop運行邏輯回歸的時候很大可能沒有使用到HDFS的緩存功能,而是采用極端的情況。如果在Hadoop中運行邏輯回歸的時候采用到HDFS緩存功能,其表現很可能只會比Spark差3x-4x,而不是上圖所展示的一樣。

根據經驗,企業所做出的基準測試報告一般都是不可信的!一般獨立的第三方基準測試報告是比較可信的,比如:TPC-H。他們的基準測試報告一般會覆蓋絕大部分場景,以便真實地展示結果。

一般來說,Spark比MapReduce運行速度快的原因主要有以下幾點:

  • task啟動時間比較快,Spark是fork出線程;而MR是啟動一個新的進程;
  • 更快的shuffles,Spark只有在shuffle的時候才會將數據放在磁盤,而MR卻不是。
  • 更快的工作流:典型的MR工作流是由很多MR作業組成的,他們之間的數據交互需要把數據持久化到磁盤才可以;而Spark支持DAG以及pipelining,在沒有遇到shuffle完全可以不把數據緩存到磁盤。
  • 緩存:雖然目前HDFS也支持緩存,但是一般來說,Spark的緩存功能更加高效,特別是在SparkSQL中,我們可以將數據以列式的形式儲存在內存中。

所有的這些原因才使得Spark相比Hadoop擁有更好的性能表現;在比較短的作業確實能快上100倍,但是在真實的生產環境下,一般只會快 2.5x – 3x!

誤解三:Spark在數據處理方面引入了全新的技術

事實上,Spark并沒有引入任何革命性的新技術!其擅長的LRU緩存策略和數據的pipelining處理其實在MPP數據庫中早就存在!Spark做出重要的一步是使用開源的方式來實現它!并且企業可以免費地使用它。大部分企業勢必會選擇開源的Spark技術,而不是付費的MPP技術。

責任編輯:未麗燕 來源: 網絡大數據
相關推薦

2018-07-13 05:31:13

2015-06-08 13:51:56

WiFi

2019-04-29 13:22:58

數據保護GDPR數據安全

2023-03-16 14:40:43

光纖數據中心綜合布線

2017-05-23 09:00:07

2010-05-04 14:06:15

Apache負載均衡

2017-04-07 09:02:06

Spark方法優化

2020-12-26 15:19:00

DevOps誤區開發

2018-11-01 13:20:43

公有云云安全攻擊

2014-02-14 15:43:16

ApacheSpark

2020-12-18 10:04:52

API漏洞應用程序編程接口

2014-06-17 16:28:48

Windows To

2010-08-11 10:41:22

AdobeFlex

2010-07-27 11:19:18

Flex

2015-09-22 10:14:57

虛擬化虛擬化問題

2019-07-10 09:21:36

大數據數據庫Hadoop

2021-08-11 13:54:19

微服務系統架構開發者

2017-01-16 18:11:23

存儲

2013-01-05 14:25:27

大數據

2015-04-03 09:14:12

軟件定義網絡SDNGartner
點贊
收藏

51CTO技術棧公眾號

久久综合九色综合久99| av官网在线播放| 久久99精品久久久久久琪琪| 欧美亚洲自拍偷拍| 日韩—二三区免费观看av| 播放一区二区| 欧美xxxbbb| 青青草娱乐在线| 日韩精品资源| 在线电影欧美日韩一区二区私密| 偷拍亚洲欧洲综合| 日韩av不卡在线观看| 澳门av一区二区三区| 99国产超薄肉色丝袜交足的后果| 黑人巨大精品欧美一区免费视频 | 一区三区自拍| 天堂av在线网站| 欧美乱妇23p| 都市激情亚洲色图| 免费日韩av片| 国产aⅴ精品一区二区三区久久| 日本一级在线观看| 在线观看17c| 色婷婷成人在线| 久久精品国产精品亚洲精品色| 日韩成人av一区| 91免费国产在线观看| 国产精品片aa在线观看| 美国一区二区| 欧美成人家庭影院| 欧美色网在线| 精品国产乱码一区二区三区| 欧美极度另类| 精品视频一区二区三区在线观看| 色偷偷偷在线视频播放| a一区二区三区| 精品国模一区二区三区| 北岛玲精品视频在线观看| 美女91在线看| 欧美极品在线| 日韩影片在线观看| 亚洲综合图色| 国产一区二区三区四区二区| 国内精品久久久久久99蜜桃| 亚洲成人一品| 欧美男同视频网| 亚洲乱码精品| 久久精品亚洲乱码伦伦中文| 亚洲女同中文字幕| jizz免费一区二区三区| bt在线麻豆视频| 日本欧美在线视频免费观看| 99re8这里只有精品| 中文字幕中文字幕在线中一区高清| 日产国产精品精品a∨| 日韩精品一区二区免费| 拔插拔插海外华人免费| 国产欧美123| 在线观看免费播放网址成人| 国产高清免费av在线| 久草免费在线视频| 奇米影视777在线欧美电影观看| 狠狠做六月爱婷婷综合aⅴ| 天堂va蜜桃一区二区三区漫画版 | 欧美黄色一级片视频| 九九精品在线观看| 成人h视频在线观看播放| 国产精品10p综合二区| 国产曰肥老太婆无遮挡| 成人au免费视频影院| 男人捅女人免费视频| 青青视频在线观| 亚洲精品午夜| 日韩精品乱码av一区二区| 亚洲美女在线国产| 精品国产乱码久久久久久影片| 26uuu另类亚洲欧美日本一| 美女主播视频一区| 日本成人a视频| 日本高清在线观看| 日韩高清成人| 国产欧美三级| 欧美日韩美女视频| 成年无码av片在线| 亚洲一区三区电影在线观看| 三上悠亚在线资源| 日本久久二区| 国产成人日日夜夜| 91福利在线免费观看| 国产成人97精品免费看片| 日本黄色播放器| 91短视频版在线观看www免费| 免费一区二区三区在线视频| 亚州国产精品| 成人妖精视频yjsp地址| 黄色成人av网| 亚洲人成在线播放| 国产精品高清网站| 国产福利影院在线观看| xxxx成人| 欧美激情综合色综合啪啪| 精品福利免费观看| 国产精品电影观看| 成人午夜精品久久久久久久蜜臀| 超碰97国产精品人人cao| 亚洲一区二区电影| 成人av在线电影| 亚洲视频在线看| 国产 日韩 亚洲 欧美| 男女在线观看视频| 亚洲视频www| 欧美天天综合网| 国产传媒欧美日韩| 99热在线网站| 成人3d精品动漫精品一二三| 亚洲精品国产成人久久av盗摄 | 在线观看三级视频| 四虎影视在线播放| 欧美挤奶吃奶水xxxxx| 91麻豆swag| 亚洲精品在线视频观看| 成人情趣视频网站| 亚洲欧洲中文天堂| 久久久久久久激情| 亚洲小视频在线观看| 国产精品99久久免费黑人人妻| free性欧美16hd| 亚洲影院免费| 亚洲第一在线综合网站| 久久久91精品国产| 91精品久久久久久久久中文字幕 | 四虎永久免费网站| 伊人av综合网| 亚洲综合欧美日韩| 九色porny自拍视频在线观看| 欧美成人激情| 一区二区三区在线视频观看| 欧美成人三级视频网站| 亚洲深夜福利在线| 国产精品福利无圣光在线一区| 国产欧美韩日| 日本午夜视频| 成人在线观看亚洲| 欧美激情xxxx性bbbb| 欧美精品国产精品久久久 | 91精品国产自产精品男人的天堂 | 国产网站免费在线观看| 日韩欧美精品一区| 国产剧情一区在线| 欧美在线免费视频| 一个人看的www视频在线免费观看| 污视频网站在线免费| 男人的天堂成人在线| 男插女视频久久久| 在线亚洲国产精品网| 国产精品久久久久久福利一牛影视| www成人免费观看| 欧美一区视频| 国产午夜精品免费一区二区三区| 色爱综合区网| 老司机很黄的视频免费| 亚洲狼人精品一区二区三区| 国产91|九色| 激情久久99| 亚洲女人天堂av| 99久久伊人精品影院| 欧美视频二区欧美影视| 亚洲精品久久在线| 黄色片免费在线观看| 艳妇臀荡乳欲伦亚洲一区| 国产成人a亚洲精v品无码| 日本不卡免费在线视频| 成人日韩在线电影| 精品av一区二区| 国产99久久久欧美黑人| 亚洲不卡视频| 久久久精品免费视频| 不卡av影片| 精品日韩av一区二区| 岛国av在线网站| 一道本无吗dⅴd在线播放一区| 欧美成人性网| 按摩亚洲人久久| 久久爱.com| 欧美韩国理论所午夜片917电影| 欧美亚洲日本精品| 亚洲天堂视频在线观看| 国产在线|日韩| 日韩视频一区二区三区 | 高清视频一区二区三区| 亚洲一区二区蜜桃| 久久99精品国产麻豆婷婷洗澡| 亚洲国产精品精华素| 中文字幕一区二区精品| 免费电影一区二区三区| 国产欧美一二三区| 久久免费电影网| 国产精品视频免费观看www| 人妻少妇精品久久| 久久91精品国产91久久小草|