国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

Hive千億級數(shù)據(jù)傾斜解決方案

大數(shù)據(jù)
MapReduce和Spark中的數(shù)據(jù)傾斜解決方案原理都是類似的,以下討論Hive使用MapReduce引擎引發(fā)的數(shù)據(jù)傾斜,Spark數(shù)據(jù)傾斜也可以此為參照。

[[394902]]

本文轉(zhuǎn)載自微信公眾號「五分鐘學(xué)大數(shù)據(jù)」,作者園陌 。轉(zhuǎn)載本文請聯(lián)系五分鐘學(xué)大數(shù)據(jù)公眾號。

數(shù)據(jù)傾斜問題剖析

數(shù)據(jù)傾斜是分布式系統(tǒng)不可避免的問題,任何分布式系統(tǒng)都有幾率發(fā)生數(shù)據(jù)傾斜,但有些小伙伴在平時(shí)工作中感知不是很明顯。這里要注意本篇文章的標(biāo)題—“千億級數(shù)據(jù)”,為什么說千億級,因?yàn)槿绻粋€(gè)任務(wù)的數(shù)據(jù)量只有幾百萬,它即使發(fā)生了數(shù)據(jù)傾斜,所有數(shù)據(jù)都跑到一臺機(jī)器去執(zhí)行,對于幾百萬的數(shù)據(jù)量,一臺機(jī)器執(zhí)行起來還是毫無壓力的,這時(shí)數(shù)據(jù)傾斜對我們感知不大,只有數(shù)據(jù)達(dá)到一個(gè)量級時(shí),一臺機(jī)器應(yīng)付不了這么多數(shù)據(jù),這時(shí)如果發(fā)生數(shù)據(jù)傾斜,最后就很難算出結(jié)果。

所以就需要我們對數(shù)據(jù)傾斜的問題進(jìn)行優(yōu)化,盡量避免或減輕數(shù)據(jù)傾斜帶來的影響。

在解決數(shù)據(jù)傾斜問題之前,還要再提一句:沒有瓶頸時(shí)談?wù)搩?yōu)化,都是自尋煩惱。

大家想想,在map和reduce兩個(gè)階段中,最容易出現(xiàn)數(shù)據(jù)傾斜的就是reduce階段,因?yàn)閙ap到reduce會經(jīng)過shuffle階段,在shuffle中默認(rèn)會按照key進(jìn)行hash,如果相同的key過多,那么hash的結(jié)果就是大量相同的key進(jìn)入到同一個(gè)reduce中,導(dǎo)致數(shù)據(jù)傾斜。

那么有沒有可能在map階段就發(fā)生數(shù)據(jù)傾斜呢,是有這種可能的。

一個(gè)任務(wù)中,數(shù)據(jù)文件在進(jìn)入map階段之前會進(jìn)行切分,默認(rèn)是128M一個(gè)數(shù)據(jù)塊,但是如果當(dāng)對文件使用GZIP壓縮等不支持文件分割操作的壓縮方式時(shí),MR任務(wù)讀取壓縮后的文件時(shí),是對它切分不了的,該壓縮文件只會被一個(gè)任務(wù)所讀取,如果有一個(gè)超大的不可切分的壓縮文件被一個(gè)map讀取時(shí),就會發(fā)生map階段的數(shù)據(jù)傾斜。

所以,從本質(zhì)上來說,發(fā)生數(shù)據(jù)傾斜的原因有兩種:一是任務(wù)中需要處理大量相同的key的數(shù)據(jù)。二是任務(wù)讀取不可分割的大文件。

數(shù)據(jù)傾斜解決方案

MapReduce和Spark中的數(shù)據(jù)傾斜解決方案原理都是類似的,以下討論Hive使用MapReduce引擎引發(fā)的數(shù)據(jù)傾斜,Spark數(shù)據(jù)傾斜也可以此為參照。

1. 空值引發(fā)的數(shù)據(jù)傾斜

實(shí)際業(yè)務(wù)中有些大量的null值或者一些無意義的數(shù)據(jù)參與到計(jì)算作業(yè)中,表中有大量的null值,如果表之間進(jìn)行join操作,就會有shuffle產(chǎn)生,這樣所有的null值都會被分配到一個(gè)reduce中,必然產(chǎn)生數(shù)據(jù)傾斜。

之前有小伙伴問,如果A、B兩表join操作,假如A表中需要join的字段為null,但是B表中需要join的字段不為null,這兩個(gè)字段根本就join不上啊,為什么還會放到一個(gè)reduce中呢?

這里我們需要明確一個(gè)概念,數(shù)據(jù)放到同一個(gè)reduce中的原因不是因?yàn)樽侄文懿荒躩oin上,而是因?yàn)閟huffle階段的hash操作,只要key的hash結(jié)果是一樣的,它們就會被拉到同一個(gè)reduce中。

解決方案:

第一種:可以直接不讓null值參與join操作,即不讓null值有shuffle階段

  1. SELECT * 
  2. FROM log a 
  3.  JOIN users b 
  4.  ON a.user_id IS NOT NULL 
  5.   AND a.user_id = b.user_id 
  6. UNION ALL 
  7. SELECT * 
  8. FROM log a 
  9. WHERE a.user_id IS NULL

第二種:因?yàn)閚ull值參與shuffle時(shí)的hash結(jié)果是一樣的,那么我們可以給null值隨機(jī)賦值,這樣它們的hash結(jié)果就不一樣,就會進(jìn)到不同的reduce中:

  1. SELECT * 
  2. FROM log a 
  3.  LEFT JOIN users b ON CASE  
  4.    WHEN a.user_id IS NULL THEN concat('hive_', rand()) 
  5.    ELSE a.user_id 
  6.   END = b.user_id; 

2. 不同數(shù)據(jù)類型引發(fā)的數(shù)據(jù)傾斜

對于兩個(gè)表join,表a中需要join的字段key為int,表b中key字段既有string類型也有int類型。當(dāng)按照key進(jìn)行兩個(gè)表的join操作時(shí),默認(rèn)的Hash操作會按int型的id來進(jìn)行分配,這樣所有的string類型都被分配成同一個(gè)id,結(jié)果就是所有的string類型的字段進(jìn)入到一個(gè)reduce中,引發(fā)數(shù)據(jù)傾斜。

解決方案:

如果key字段既有string類型也有int類型,默認(rèn)的hash就都會按int類型來分配,那我們直接把int類型都轉(zhuǎn)為string就好了,這樣key字段都為string,hash時(shí)就按照string類型分配了:

  1. SELECT * 
  2. FROM users a 
  3.  LEFT JOIN logs b ON a.usr_id = CAST(b.user_id AS string); 

3. 不可拆分大文件引發(fā)的數(shù)據(jù)傾斜

當(dāng)集群的數(shù)據(jù)量增長到一定規(guī)模,有些數(shù)據(jù)需要?dú)w檔或者轉(zhuǎn)儲,這時(shí)候往往會對數(shù)據(jù)進(jìn)行壓縮;當(dāng)對文件使用GZIP壓縮等不支持文件分割操作的壓縮方式,在日后有作業(yè)涉及讀取壓縮后的文件時(shí),該壓縮文件只會被一個(gè)任務(wù)所讀取。如果該壓縮文件很大,則處理該文件的Map需要花費(fèi)的時(shí)間會遠(yuǎn)多于讀取普通文件的Map時(shí)間,該Map任務(wù)會成為作業(yè)運(yùn)行的瓶頸。這種情況也就是Map讀取文件的數(shù)據(jù)傾斜。

解決方案:

這種數(shù)據(jù)傾斜問題沒有什么好的解決方案,只能將使用GZIP壓縮等不支持文件分割的文件轉(zhuǎn)為bzip和zip等支持文件分割的壓縮方式。

所以,我們在對文件進(jìn)行壓縮時(shí),為避免因不可拆分大文件而引發(fā)數(shù)據(jù)讀取的傾斜,在數(shù)據(jù)壓縮的時(shí)候可以采用bzip2和Zip等支持文件分割的壓縮算法。

4. 數(shù)據(jù)膨脹引發(fā)的數(shù)據(jù)傾斜

在多維聚合計(jì)算時(shí),如果進(jìn)行分組聚合的字段過多,如下:

select a,b,c,count(1)from log group by a,b,c with rollup;

注:對于最后的with rollup關(guān)鍵字不知道大家用過沒,with rollup是用來在分組統(tǒng)計(jì)數(shù)據(jù)的基礎(chǔ)上再進(jìn)行統(tǒng)計(jì)匯總,即用來得到group by的匯總信息。

如果上面的log表的數(shù)據(jù)量很大,并且Map端的聚合不能很好地起到數(shù)據(jù)壓縮的情況下,會導(dǎo)致Map端產(chǎn)出的數(shù)據(jù)急速膨脹,這種情況容易導(dǎo)致作業(yè)內(nèi)存溢出的異常。如果log表含有數(shù)據(jù)傾斜key,會加劇Shuffle過程的數(shù)據(jù)傾斜。

解決方案:

可以拆分上面的sql,將with rollup拆分成如下幾個(gè)sql:

  1. SELECT a, b, c, COUNT(1) 
  2. FROM log 
  3. GROUP BY a, b, c; 
  4.  
  5. SELECT a, b, NULLCOUNT(1) 
  6. FROM log 
  7. GROUP BY a, b; 
  8.  
  9. SELECT a, NULLNULLCOUNT(1) 
  10. FROM log 
  11. GROUP BY a; 
  12.  
  13. SELECT NULLNULLNULLCOUNT(1) 
  14. FROM log; 

但是,上面這種方式不太好,因?yàn)楝F(xiàn)在是對3個(gè)字段進(jìn)行分組聚合,那如果是5個(gè)或者10個(gè)字段呢,那么需要拆解的SQL語句會更多。

在Hive中可以通過參數(shù) hive.new.job.grouping.set.cardinality 配置的方式自動控制作業(yè)的拆解,該參數(shù)默認(rèn)值是30。表示針對grouping sets/rollups/cubes這類多維聚合的操作,如果最后拆解的鍵組合大于該值,會啟用新的任務(wù)去處理大于該值之外的組合。如果在處理數(shù)據(jù)時(shí),某個(gè)分組聚合的列有較大的傾斜,可以適當(dāng)調(diào)小該值。

5. 表連接時(shí)引發(fā)的數(shù)據(jù)傾斜

兩表進(jìn)行普通的repartition join時(shí),如果表連接的鍵存在傾斜,那么在 Shuffle 階段必然會引起數(shù)據(jù)傾斜。

解決方案:

通常做法是將傾斜的數(shù)據(jù)存到分布式緩存中,分發(fā)到各個(gè)Map任務(wù)所在節(jié)點(diǎn)。在Map階段完成join操作,即MapJoin,這避免了 Shuffle,從而避免了數(shù)據(jù)傾斜。

MapJoin是Hive的一種優(yōu)化操作,其適用于小表JOIN大表的場景,由于表的JOIN操作是在Map端且在內(nèi)存進(jìn)行的,所以其并不需要啟動Reduce任務(wù)也就不需要經(jīng)過shuffle階段,從而能在一定程度上節(jié)省資源提高JOIN效率。

在Hive 0.11版本之前,如果想在Map階段完成join操作,必須使用MAPJOIN來標(biāo)記顯示地啟動該優(yōu)化操作,由于其需要將小表加載進(jìn)內(nèi)存所以要注意小表的大小。

如將a表放到Map端內(nèi)存中執(zhí)行,在Hive 0.11版本之前需要這樣寫:

  1. select /* +mapjoin(a) */ a.id , a.name, b.age  
  2. from a join b  
  3. on a.id = b.id; 

如果想將多個(gè)表放到Map端內(nèi)存中,只需在mapjoin()中寫多個(gè)表名稱即可,用逗號分隔,如將a表和c表放到Map端內(nèi)存中,則 /* +mapjoin(a,c) */ 。

在Hive 0.11版本及之后,Hive默認(rèn)啟動該優(yōu)化,也就是不在需要顯示的使用MAPJOIN標(biāo)記,其會在必要的時(shí)候觸發(fā)該優(yōu)化操作將普通JOIN轉(zhuǎn)換成MapJoin,可以通過以下兩個(gè)屬性來設(shè)置該優(yōu)化的觸發(fā)時(shí)機(jī):

hive.auto.convert.join=true 默認(rèn)值為true,自動開啟MAPJOIN優(yōu)化。

hive.mapjoin.smalltable.filesize=2500000 默認(rèn)值為2500000(25M),通過配置該屬性來確定使用該優(yōu)化的表的大小,如果表的大小小于此值就會被加載進(jìn)內(nèi)存中。

注意:使用默認(rèn)啟動該優(yōu)化的方式如果出現(xiàn)莫名其妙的BUG(比如MAPJOIN并不起作用),就將以下兩個(gè)屬性置為fase手動使用MAPJOIN標(biāo)記來啟動該優(yōu)化:

hive.auto.convert.join=false (關(guān)閉自動MAPJOIN轉(zhuǎn)換操作)

hive.ignore.mapjoin.hint=false (不忽略MAPJOIN標(biāo)記)

再提一句:將表放到Map端內(nèi)存時(shí),如果節(jié)點(diǎn)的內(nèi)存很大,但還是出現(xiàn)內(nèi)存溢出的情況,我們可以通過這個(gè)參數(shù) mapreduce.map.memory.mb 調(diào)節(jié)Map端內(nèi)存的大小。

6. 確實(shí)無法減少數(shù)據(jù)量引發(fā)的數(shù)據(jù)傾斜

在一些操作中,我們沒有辦法減少數(shù)據(jù)量,如在使用 collect_list 函數(shù)時(shí):

  1. select s_age,collect_list(s_score) list_score 
  2. from student 
  3. group by s_age 

collect_list:將分組中的某列轉(zhuǎn)為一個(gè)數(shù)組返回。

在上述sql中,s_age如果存在數(shù)據(jù)傾斜,當(dāng)數(shù)據(jù)量大到一定的數(shù)量,會導(dǎo)致處理傾斜的reduce任務(wù)產(chǎn)生內(nèi)存溢出的異常。

注:collect_list輸出一個(gè)數(shù)組,中間結(jié)果會放到內(nèi)存中,所以如果collect_list聚合太多數(shù)據(jù),會導(dǎo)致內(nèi)存溢出。

有小伙伴說這是 group by 分組引起的數(shù)據(jù)傾斜,可以開啟hive.groupby.skewindata參數(shù)來優(yōu)化。我們接下來分析下:

開啟該配置會將作業(yè)拆解成兩個(gè)作業(yè),第一個(gè)作業(yè)會盡可能將Map的數(shù)據(jù)平均分配到Reduce階段,并在這個(gè)階段實(shí)現(xiàn)數(shù)據(jù)的預(yù)聚合,以減少第二個(gè)作業(yè)處理的數(shù)據(jù)量;第二個(gè)作業(yè)在第一個(gè)作業(yè)處理的數(shù)據(jù)基礎(chǔ)上進(jìn)行結(jié)果的聚合。

hive.groupby.skewindata的核心作用在于生成的第一個(gè)作業(yè)能夠有效減少數(shù)量。但是對于collect_list這類要求全量操作所有數(shù)據(jù)的中間結(jié)果的函數(shù)來說,明顯起不到作用,反而因?yàn)橐胄碌淖鳂I(yè)增加了磁盤和網(wǎng)絡(luò)I/O的負(fù)擔(dān),而導(dǎo)致性能變得更為低下。

解決方案:

這類問題最直接的方式就是調(diào)整reduce所執(zhí)行的內(nèi)存大小。

調(diào)整reduce的內(nèi)存大小使用mapreduce.reduce.memory.mb這個(gè)配置。

 

責(zé)任編輯:武曉燕 來源: 五分鐘學(xué)大數(shù)據(jù)
相關(guān)推薦

2022-02-23 12:07:20

分布式Spark數(shù)據(jù)傾斜

2009-03-19 09:49:00

華為數(shù)據(jù)備份賽門鐵克

2022-01-04 20:34:00

數(shù)據(jù)安全Relay

2017-05-10 14:41:41

存儲

2021-08-04 07:21:31

Hive 數(shù)據(jù)排查

2022-01-06 20:00:39

數(shù)據(jù)企業(yè)安全

2022-01-08 15:08:17

項(xiàng)目配置Sentry

2022-01-09 21:46:22

安全數(shù)據(jù)Sentry

2022-01-05 20:16:52

Sentry Relay 數(shù)據(jù)安全

2022-01-12 23:54:27

Sentry企業(yè)級安全

2022-01-07 18:07:16

數(shù)據(jù)安全監(jiān)控

2020-11-03 10:16:24

Hive數(shù)據(jù)傾斜Hive SQL

2013-07-30 11:18:59

SAP大數(shù)據(jù)解決方案

2013-10-18 15:27:30

微軟大數(shù)據(jù)微軟

2009-04-27 17:12:11

數(shù)據(jù)保護(hù)EDPSafeNet

2021-06-29 12:00:36

Eclipse開源數(shù)據(jù)傳輸

2023-03-27 09:14:34

2024-08-12 12:07:18

2022-09-19 16:22:43

數(shù)據(jù)庫方案

2011-05-05 15:22:16

深信服碼流數(shù)據(jù)流
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

中文字幕一区二区三区av| 国精产品一区一区三区mba桃花| 欧美一级一片| 激情自拍一区| 免费在线黄网站| 91亚洲精品乱码久久久久久蜜桃| 欧美大尺度做爰床戏| 精品国产福利在线| 国产精品电影| 日本一区二区三区四区在线观看| 欧美天天在线| 国产精品wwwwww| 欧美freesex交免费视频| 免费国产黄色网址| 日本不卡一区| 久久91精品久久久久久秒播 | 日本全棵写真视频在线观看| 久久一区二区三区电影| 国产欧美va欧美va香蕉在| 涩涩涩在线视频| 亚洲视频小说图片| 91系列在线观看| 亚洲一区 二区| 亚洲精品在线91| 成人永久免费网站| 日韩.com| 乱亲女秽乱长久久久| 男人的天堂网av| 成人国产在线观看| 日本特级黄色大片| 国产精品亚洲午夜一区二区三区 | 一本色道久久综合亚洲aⅴ蜜桃| 国产在线青青草| 色美美综合视频| 亚洲jizzjizz妇女| 激情图区综合网| 国产日韩精品入口| 日本伊人午夜精品| 牛牛热在线视频| 欧美aaaaaaaa| 国产精品美乳一区二区免费| 免费在线视频一区| 特黄特色特刺激视频免费播放 | 黄色片av在线| 91黄视频在线观看| 欧美理论电影大全| 日韩伦理一区二区三区av在线| 国产欧美日韩中文久久| 人猿泰山h版在线观看| 欧美午夜影院一区| 青春草视频在线| 91麻豆精品久久久久蜜臀| 成人毛片av在线| 最近2019年日本中文免费字幕| 亚洲三级网页| 五月天色一区| 亚洲精品视频自拍| 91av久久| 九色一区二区| 亚洲mv在线观看| 亚洲人成网77777色在线播放| 男人天堂999| 亚洲国产成人在线| 91黄色小网站| 欧美性色视频在线| 亚洲一级大片| av片在线免费观看| 九色丨porny丨| 在线成人av网站| 欧美日韩国产bt| 素人啪啪色综合| 久久久精品中文字幕| 蜜桃视频一区| 日韩黄色在线| 日韩国产在线一区| 99久久久精品| 欧美激情精品久久久久久大尺度| 亚洲高清久久| 影音先锋在线影院| 久久成人18免费网站| 国模娜娜一区二区三区| 国产爆初菊在线观看免费视频网站| 欧美一性一乱一交一视频| 不卡在线观看av| xxxxxx欧美| 十八禁视频网站在线观看| 亚洲精品一区二区久| 亚洲字幕久久| 天天色综合社区| 久久九九免费视频| 国产婷婷色综合av蜜臀av | 九色91国产| 国产精品国模在线| 欧美国产精品中文字幕| 国产精品4hu.www| 黄色影院一级片| 久久精品国产亚洲| 亚洲高清免费视频| 欧美极品中文字幕| 深夜av在线| 精品一区久久| 国产精品久久免费看| 国产亚洲精aa在线看| 99re热精品| 亚洲精品一区二区三区蜜桃下载 | 成年人视频免费在线观看| 欧美一级片久久久久久久| 中文av一区二区| 日韩av网站在线免费观看| 欧美偷拍视频| 欧美精品一区二区三区四区五区| 亚洲精品一区中文字幕乱码| 亚洲国产美女搞黄色| 欧美片第1页综合| 中文字幕人成乱码在线观看| 日韩欧美精品在线观看视频| 色综合电影网| 亚洲精品国产美女| 国产ts人妖一区二区| 色狼人综合干| 亚洲狠狠婷婷| 欧美视频一区| 免费在线日韩av| 国产精品888| av在线免费不卡| 偷拍日韩校园综合在线| 亚洲欧美日韩中文播放| 亚洲大片在线| 国产精品黄网站| 欧美黄色视屏| www黄在线观看| www.日本三级| 91产国在线观看动作片喷水| 26uuu亚洲综合色| 日韩a一区二区| jizz久久久久久| 成人ww免费完整版在线观看| 婷婷视频在线播放| 久久久人成影片一区二区三区观看 | 国产精品综合二区| 久久99国产精一区二区三区| 写真福利精品福利在线观看| 国产高清一区二区三区视频| 在线观看导航| 污网站在线播放| 在线观看免费网站| 日色在线视频| 97xxxxx| 九九九九精品| 另类美女黄大片| 亚洲va韩国va欧美va| 不卡视频免费播放| 国产精品美女一区二区| 久久黄色av网站| 亚洲成年人专区| 亚洲综合av网| 香蕉亚洲视频| 亚洲人成网站在线在线观看| 中文字幕av在线| 一级一片免费播放| 国产精品黄色av| 亚洲丁香久久久| 久久综合伊人77777尤物| 日韩中文视频免费在线观看| 精品国产一区二区三区久久| 久久天天躁狠狠躁夜夜av| 精品国产一区二区三区在线观看 | 国产欧美亚洲精品a| 国产美女亚洲精品7777| 国产极品一区| 天堂成人娱乐在线视频免费播放网站| 天堂99x99es久久精品免费| 中文字幕人成人乱码| 日韩vs国产vs欧美| 成人黄色综合网站| 亚洲一区二区三区四区在线| 欧美日韩中文在线| 91高潮在线观看| 成人在线中文字幕| 精品国产自在精品国产浪潮 | 欧美精品二区三区四区免费看视频| 婷婷四月色综合| 亚洲区一区二区三区| 制服丝袜专区在线| 亚洲激情成人在线| 国产91在线播放精品91| 欧美午夜免费| av成人动漫| 国产精品美女久久久久人| 国产区美女在线| 精品69视频一区二区三区| 久久99热精品| 亚洲综合第一页| 国产在线精品一区二区中文| 黄色大片在线免费看| 国产精品专区在线| 免费网站www在线观看| а√最新版地址在线天堂| 91欧美在线视频| 8x国产一区二区三区精品推荐|