国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

Spark核心技術原理透視一(Spark運行原理)

大數(shù)據(jù) Spark
在大數(shù)據(jù)領域,只有深挖數(shù)據(jù)科學領域,走在學術前沿,才能在底層算法和模型方面走在前面,從而占據(jù)領先地位。Spark的這種學術基因,使得它從一開始就在大數(shù)據(jù)領域建立了一定優(yōu)勢。無論是性能,還是方案的統(tǒng)一性,對比傳統(tǒng)的Hadoop,優(yōu)勢都非常明顯。

在大數(shù)據(jù)領域,只有深挖數(shù)據(jù)科學領域,走在學術前沿,才能在底層算法和模型方面走在前面,從而占據(jù)領先地位。

Spark的這種學術基因,使得它從一開始就在大數(shù)據(jù)領域建立了一定優(yōu)勢。無論是性能,還是方案的統(tǒng)一性,對比傳統(tǒng)的Hadoop,優(yōu)勢都非常明顯。Spark提供的基于RDD的一體化解決方案,將MapReduce、Streaming、SQL、Machine Learning、Graph Processing等模型統(tǒng)一到一個平臺下,并以一致的API公開,并提供相同的部署方案,使得Spark的工程應用領域變得更加廣泛。本文主要分以下章節(jié):

  • 一、Spark專業(yè)術語定義
  • 二、Spark運行基本流程
  • 三、Spark運行架構特點
  • 四、Spark核心原理透視

一、Spark專業(yè)術語定義

1、Application:Spark應用程序

指的是用戶編寫的Spark應用程序,包含了Driver功能代碼和分布在集群中多個節(jié)點上運行的Executor代碼。

Spark應用程序,由一個或多個作業(yè)JOB組成,如下圖所示:

 

1.jpg

2、Driver:驅動程序

Spark中的Driver即運行上述Application的Main()函數(shù)并且創(chuàng)建SparkContext,其中創(chuàng)建SparkContext的目的是為了準備Spark應用程序的運行環(huán)境。在Spark中由SparkContext負責和ClusterManager通信,進行資源的申請、任務的分配和監(jiān)控等;當Executor部分運行完畢后,Driver負責將SparkContext關閉。通常SparkContext代表Driver,如下圖所示:

 

2.jpg

3、Cluster Manager:資源管理器

指的是在集群上獲取資源的外部服務,常用的有:Standalone,Spark原生的資源管理器,由Master負責資源的分配;Haddop Yarn,由Yarn中的ResearchManager負責資源的分配;Messos,由Messos中的Messos Master負責資源管理,如下圖所示:

 

3.jpg

4、Executor:執(zhí)行器

Application運行在Worker節(jié)點上的一個進程,該進程負責運行Task,并且負責將數(shù)據(jù)存在內存或者磁盤上,每個Application都有各自獨立的一批Executor,如下圖所示:

 

4.jpg

5、Worker:計算節(jié)點

集群中任何可以運行Application代碼的節(jié)點,類似于Yarn中的NodeManager節(jié)點。在Standalone模式中指的就是通過Slave文件配置的Worker節(jié)點,在Spark on Yarn模式中指的就是NodeManager節(jié)點,在Spark on Messos模式中指的就是Messos Slave節(jié)點,如下圖所示:

 

5.jpg

6、RDD:彈性分布式數(shù)據(jù)集

Resillient Distributed Dataset,Spark的基本計算單元,可以通過一系列算子進行操作(主要有Transformation和Action操作),如下圖所示:

 

6.jpg

7、窄依賴

父RDD每一個分區(qū)最多被一個子RDD的分區(qū)所用;表現(xiàn)為一個父RDD的分區(qū)對應于一個子RDD的分區(qū),或兩個父RDD的分區(qū)對應于一個子RDD 的分區(qū)。如圖所示:

 

7.jpg

8、寬依賴

父RDD的每個分區(qū)都可能被多個子RDD分區(qū)所使用,子RDD分區(qū)通常對應所有的父RDD分區(qū)。如圖所示:

 

8.jpg

常見的窄依賴有:map、filter、union、mapPartitions、mapValues、join(父RDD是hash-partitioned :如果JoinAPI之前被調用的RDD API是寬依賴(存在shuffle), 而且兩個join的RDD的分區(qū)數(shù)量一致,join結果的rdd分區(qū)數(shù)量也一樣,這個時候join api是窄依賴)。

常見的寬依賴有groupByKey、partitionBy、reduceByKey、join(父RDD不是hash-partitioned :除此之外的,rdd 的join api是寬依賴)。

9、DAG:有向無環(huán)圖

Directed Acycle graph,反應RDD之間的依賴關系,如圖所示:

 

9.jpg

10、DAGScheduler:有向無環(huán)圖調度器

基于DAG劃分Stage 并以TaskSet的形勢提交Stage給TaskScheduler;負責將作業(yè)拆分成不同階段的具有依賴關系的多批任務;最重要的任務之一就是:計算作業(yè)和任務的依賴關系,制定調度邏輯。在SparkContext初始化的過程中被實例化,一個SparkContext對應創(chuàng)建一個DAGScheduler。

 

10.jpg

11、TaskScheduler:任務調度器

將Taskset提交給worker(集群)運行并回報結果;負責每個具體任務的實際物理調度。如圖所示:

 

11.jpg

12、Job:作業(yè)

由一個或多個調度階段所組成的一次計算作業(yè);包含多個Task組成的并行計算,往往由Spark Action催生,一個JOB包含多個RDD及作用于相應RDD上的各種Operation。如圖所示:

 

12.jpg

13、Stage:調度階段

一個任務集對應的調度階段;每個Job會被拆分很多組Task,每組任務被稱為Stage,也可稱TaskSet,一個作業(yè)分為多個階段;Stage分成兩種類型ShuffleMapStage、ResultStage。如圖所示:

 

13.jpg

14、TaskSet:任務集

由一組關聯(lián)的,但相互之間沒有Shuffle依賴關系的任務所組成的任務集。如圖所示:

 

14.jpg

提示:

  • 一個Stage創(chuàng)建一個TaskSet;
  • 為Stage的每個Rdd分區(qū)創(chuàng)建一個Task,多個Task封裝成TaskSet

15、Task:任務

被送到某個Executor上的工作任務;單個分區(qū)數(shù)據(jù)集上的最小處理流程單元。如圖所示:

 

15.jpg

總體如圖所示:

 

16.jpg

二、Spark運行基本流程

 

17.jpg

 

18.jpg

三、Spark運行架構特點

1、Executor進程專屬

每個Application獲取專屬的executor進程,該進程在Application期間一直駐留,并以多線程方式運行tasks。Spark Application不能跨應用程序共享數(shù)據(jù),除非將數(shù)據(jù)寫入到外部存儲系統(tǒng)。如圖所示:

 

19.jpg

2、支持多種資源管理器

Spark與資源管理器無關,只要能夠獲取executor進程,并能保持相互通信就可以了,Spark支持資源管理器包含: Standalone、On Mesos、On YARN、Or On EC2。如圖所示:

 

20.jpg

3、Job提交就近原則

提交SparkContext的Client應該靠近Worker節(jié)點(運行Executor的節(jié)點),***是在同一個Rack(機架)里,因為Spark Application運行過程中SparkContext和Executor之間有大量的信息交換;如果想在遠程集群中運行,***使用RPC將SparkContext提交給集群,不要遠離Worker運行SparkContext。如圖所示:

 

21.jpg

4、移動程序而非移動數(shù)據(jù)的原則執(zhí)行

Task采用了數(shù)據(jù)本地性和推測執(zhí)行的優(yōu)化機制。關鍵方法:taskIdToLocations、getPreferedLocations。如圖所示:

 

22.jpg

四、Spark核心原理透視

1、計算流程

 

23.jpg

2、從代碼構建DAG圖

Spark program

 

  1. Val lines1 = sc.textFile(inputPath1). map(···)). map(···)  
  2. Val lines2 = sc.textFile(inputPath2) . map(···)  
  3. Val lines3 = sc.textFile(inputPath3)  
  4. Val dtinone1 = lines2.union(lines3)  
  5. Val dtinone = lines1.join(dtinone1)  
  6. dtinone.saveAsTextFile(···)  
  7. dtinone.filter(···).foreach(···) 

Spark的計算發(fā)生在RDD的Action操作,而對Action之前的所有Transformation,Spark只是記錄下RDD生成的軌跡,而不會觸發(fā)真正的計算。

Spark內核會在需要計算發(fā)生的時刻繪制一張關于計算路徑的有向無環(huán)圖,也就是DAG。

 

24.jpg

3、將DAG劃分為Stage核心算法

Application多個job多個Stage:Spark Application中可以因為不同的Action觸發(fā)眾多的job,一個Application中可以有很多的job,每個job是由一個或者多個Stage構成的,后面的Stage依賴于前面的Stage,也就是說只有前面依賴的Stage計算完畢后,后面的Stage才會運行。

劃分依據(jù):Stage劃分的依據(jù)就是寬依賴,何時產(chǎn)生寬依賴,reduceByKey, groupByKey等算子,會導致寬依賴的產(chǎn)生。

核心算法:從后往前回溯,遇到窄依賴加入本stage,遇見寬依賴進行Stage切分。Spark內核會從觸發(fā)Action操作的那個RDD開始從后往前推,首先會為***一個RDD創(chuàng)建一個stage,然后繼續(xù)倒推,如果發(fā)現(xiàn)對某個RDD是寬依賴,那么就會將寬依賴的那個RDD創(chuàng)建一個新的stage,那個RDD就是新的stage的***一個RDD。然后依次類推,繼續(xù)繼續(xù)倒推,根據(jù)窄依賴或者寬依賴進行stage的劃分,直到所有的RDD全部遍歷完成為止。

4、將DAG劃分為Stage剖析

從HDFS中讀入數(shù)據(jù)生成3個不同的RDD,通過一系列transformation操作后再將計算結果保存回HDFS。可以看到這個DAG中只有join操作是一個寬依賴,Spark內核會以此為邊界將其前后劃分成不同的Stage. 同時我們可以注意到,在圖中Stage2中,從map到union都是窄依賴,這兩步操作可以形成一個流水線操作,通過map操作生成的partition可以不用等待整個RDD計算結束,而是繼續(xù)進行union操作,這樣大大提高了計算的效率。

 

25.jpg

5、相關代碼

 

26.jpg

 

27.jpg

 

28.jpg

 

29.jpg

 

30.jpg

 

31.jpg

6、提交Stages

調度階段的提交,最終會被轉換成一個任務集的提交,DAGScheduler通過TaskScheduler接口提交任務集,這個任務集最終會觸發(fā)TaskScheduler構建一個TaskSetManager的實例來管理這個任務集的生命周期,對于DAGScheduler來說,提交調度階段的工作到此就完成了。而TaskScheduler的具體實現(xiàn)則會在得到計算資源的時候,進一步通過TaskSetManager調度具體的任務到對應的Executor節(jié)點上進行運算。

 

32.jpg

7、相關代碼

 

33.jpg

 

34.jpg

 

35.jpg

TaskSetManager負責管理TaskSchedulerImpl中一個單獨TaskSet,跟蹤每一個task,如果task失敗,負責重試task直到達到task重試次數(shù)的最多次數(shù)。

 

36.jpg

8、監(jiān)控Job、Task、Executor

DAGScheduler監(jiān)控Job與Task:要保證相互依賴的作業(yè)調度階段能夠得到順利的調度執(zhí)行,DAGScheduler需要監(jiān)控當前作業(yè)調度階段乃至任務的完成情況。這通過對外暴露一系列的回調函數(shù)來實現(xiàn)的,對于TaskScheduler來說,這些回調函數(shù)主要包括任務的開始結束失敗、任務集的失敗,DAGScheduler根據(jù)這些任務的生命周期信息進一步維護作業(yè)和調度階段的狀態(tài)信息。

DAGScheduler監(jiān)控Executor的生命狀態(tài):TaskScheduler通過回調函數(shù)通知DAGScheduler具體的Executor的生命狀態(tài),如果某一個Executor崩潰了,則對應的調度階段任務集的ShuffleMapTask的輸出結果也將標志為不可用,這將導致對應任務集狀態(tài)的變更,進而重新執(zhí)行相關計算任務,以獲取丟失的相關數(shù)據(jù)。

9、獲取任務執(zhí)行結果

結果DAGScheduler:一個具體的任務在Executor中執(zhí)行完畢后,其結果需要以某種形式返回給DAGScheduler,根據(jù)任務類型的不同,任務結果的返回方式也不同。

兩種結果,中間結果與最終結果:對于FinalStage所對應的任務,返回給DAGScheduler的是運算結果本身,而對于中間調度階段對應的任務ShuffleMapTask,返回給DAGScheduler的是一個MapStatus里的相關存儲信息,而非結果本身,這些存儲位置信息將作為下一個調度階段的任務獲取輸入數(shù)據(jù)的依據(jù)。

兩種類型,DirectTaskResult與IndirectTaskResult:根據(jù)任務結果大小的不同,ResultTask返回的結果又分為兩類,如果結果足夠小,則直接放在DirectTaskResult對象內中,如果超過特定尺寸則在Executor端會將DirectTaskResult先序列化,再把序列化的結果作為一個數(shù)據(jù)塊存放在BlockManager中,然后將BlockManager返回的BlockID放在IndirectTaskResult對象中返回給TaskScheduler,TaskScheduler進而調用TaskResultGetter將IndirectTaskResult中的BlockID取出并通過BlockManager最終取得對應的DirectTaskResult。

10、任務調度總體詮釋

 

37.jpg
責任編輯:未麗燕 來源: 加米谷大數(shù)據(jù)
相關推薦

2025-09-15 06:25:00

2018-04-09 12:25:11

2016-12-19 14:35:32

Spark Strea原理剖析數(shù)據(jù)

2021-12-26 00:03:25

Spark性能調優(yōu)

2021-09-08 16:40:08

釘釘文檔協(xié)同編輯協(xié)作文檔

2018-07-10 15:46:57

機器翻譯語言翻譯

2025-04-03 07:00:00

2025-06-13 08:01:34

2020-05-27 11:20:37

HadoopSpark大數(shù)據(jù)

2021-06-21 11:24:52

Redis內存數(shù)據(jù)庫數(shù)據(jù)結構

2021-11-11 10:48:35

架構運維技術

2020-10-10 08:20:27

Spring Boot運行原理代碼

2019-05-15 08:26:44

工業(yè)物聯(lián)網(wǎng)MQTT物聯(lián)網(wǎng)

2021-01-25 20:20:35

數(shù)據(jù)分析SparkHadoop

2024-03-26 00:33:59

JVM內存對象

2022-05-07 14:31:46

物聯(lián)網(wǎng)

2016-10-24 09:52:45

SparkRDD容錯

2016-10-24 23:04:56

SparkRDD數(shù)據(jù)

2021-12-20 00:03:38

Webpack運行機制

2020-12-04 14:31:45

大數(shù)據(jù)Spark
點贊
收藏

51CTO技術棧公眾號

大胆亚洲人体视频| 日韩av成人在线观看| 欧美精品第1页| 中文字幕久久精品| 日本午夜人人精品| 国产精品视频成人| 久久精品日产第一区二区三区精品版| 国产日韩欧美综合在线| 日本精品在线中文字幕| 黑人一区二区| 精品一区二区三区日韩| 国产精品视频一二| 色香蕉成人二区免费| 国产成人中文字幕| 在线观看av影片| 麻豆影视在线| 91蝌蚪精品视频| 久久久久久免费网| 国产精品国产亚洲伊人久久| 国产欧美久久久久| 国产黄色大片在线观看| 久久黄色免费看| 欧美成人性生活| 少妇免费毛片久久久久久久久| 秋霞国产精品| 亚洲福中文字幕伊人影院| av影院在线播放| 亚洲成人国产| 亚洲色无码播放| 青青视频在线观| 秋霞午夜鲁丝一区二区老狼| 亚洲欧洲激情在线| 日本a在线天堂| 中文字幕在线观看网站| 亚洲女同另类| 欧美精品第1页| 波多野结衣综合网| 香蕉影视欧美成人| 国产一区红桃视频| 国产精品25p| 国产福利一区二区三区视频在线| 欧美日韩国产综合新一区 | 毛片av在线播放| 久久悠悠精品综合网| 亚洲另类春色国产| 日韩a在线播放| 久久综合狠狠综合| 免费看国产精品一二区视频| yw193.com尤物在线| 欧美美女bb生活片| 蜜桃导航-精品导航| 欧美重口另类| 欧美日韩国产系列| 亚洲免费看黄网站| 一区二区三区四区国产| 国产aⅴ精品一区二区三区久久| 色综合久久中文综合久久牛| 99精品欧美一区二区三区| 超级碰碰不卡在线视频| 国产午夜精品一区二区三区嫩草 | 亚洲国产精华液网站w| 欧美国产综合视频| 福利欧美精品在线| 欧美视频在线免费| 成年人三级视频| 日韩电影免费在线观看网站| 国产在线播放91| 日韩黄色av| 国产手机视频精品| 免费在线看v| 91在线观看地址| 日韩久久久久久久| 99re这里只有精品视频首页| 欧美精品国产精品久久久| 久久综合色影院| 精品少妇一区二区三区在线| 国产精品亚洲欧美| 欧美老女人在线视频| 国产精品久久久久一区二区国产 | 欧美淫片网站| 久久天天躁狠狠躁夜夜爽蜜月| 精品123区| 久色婷婷小香蕉久久| 一区二区三区四区久久| 欧美成人家庭影院| 伦理中文字幕亚洲| 亚洲欧洲自拍| 欧美动漫一区二区| 欧州一区二区| 国产精品果冻传媒潘| 国产精品视频久久一区| 一本一道久久a久久精品综合 | 第四色亚洲色图| 亚洲一区二区美女| 在线观看av黄网站永久| 欧美日本视频在线| 欧美成人高清视频在线观看| 日韩精品专区在线影院观看| 国产午夜电影| 欧美老年两性高潮| 一区二区三区四区高清视频| 色777狠狠狠综合伊人| 免费在线日韩av| 尤物国产精品| 亚洲一卡二卡三卡四卡五卡| 亚洲有码转帖| 一本一本久久a久久精品综合小说| 蜜桃tv在线播放| 欧美日韩精品高清| av小片在线| 日本精品一区二区三区在线| 国产精品羞羞答答在线观看| 动漫3d精品一区二区三区| 在线综合欧美| www.亚洲| 少妇av一区二区三区| 中文字幕一区二区三区在线视频| 国产精品手机视频| 国产一区欧美日韩| 国产不卡在线视频| 永久免费看av| 欧美精品自拍偷拍| 久久久亚洲欧洲日产| 亚洲欧美精品| 欧美综合亚洲图片综合区| 人人草在线视频| 97人人澡人人爽| 久久蜜桃av一区精品变态类天堂| av在线网页| 欧美性视频在线播放| 欧美一区二区三区免费在线看| 国产精品亚洲综合久久| 小明精品国产一区二区三区 | 色婷婷狠狠综合| 加勒比久久高清| 中文字幕久久一区| 成人欧美一区二区三区在线观看| 中文字幕av免费专区久久| 羞羞视频在线观看一区二区| 欧美成人免费一级人片100| 开心九九激情九九欧美日韩精美视频电影| 最猛黑人系列在线播放| yw.139尤物在线精品视频| 亚洲精品国产首次亮相| 2021av在线| 欧美精品www在线观看| 国产又黄又大久久| 1区2区3区在线| 久久国产精品一区二区三区| 欧美在线短视频| 久久综合久久综合久久综合| 欧美大片aaa| 精品国产一区二区三区久久狼5月 精品国产一区二区三区久久久狼 精品国产一区二区三区久久久 | 欧美国产国产综合| 精品国产一区二区三区四区| jizzjizz国产精品喷水| 欧美整片在线观看| 日韩欧美国产一区二区| 国产成人av电影在线观看| 国产高清亚洲| 91在线免费看| 国产精品一区二区欧美| 亚洲日本在线观看| 国精品一区二区| 国产一级二级在线| 91精品久久久久久久久久久久久久 | 午夜久久电影网| 日本在线аv| 国产在线拍揄自揄视频不卡99 | 人妻熟女一二三区夜夜爱| 国产成人涩涩涩视频在线观看| 欧美日在线观看| 中文字幕av一区二区三区高| 久久精品国产亚洲夜色av网站| 蜜桃视频在线观看免费视频| 黄www在线观看| 久久久久中文字幕2018| 亚洲区在线播放| 自拍av一区二区三区| 2020日本不卡一区二区视频| 国产亚洲一区| 欧美a视频在线| 欧美性video| 亚洲午夜一级| 国内精品麻豆美女在线播放视频| 8×8x拔擦拔擦在线视频网站| 337p粉嫩大胆噜噜噜鲁| 精品国产美女在线| 日韩亚洲欧美高清| 五月天一区二区| 中文字幕一区二| 成人午夜av影视| 狠狠色综合播放一区二区| 日韩高清不卡一区| 国产欧美高清视频在线| 日韩深夜福利| 成人黄色小视频| 性欧美freesex顶级少妇| 有色激情视频免费在线| 午夜电影福利网|