国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

Kafka中改進的二分查找算法

系統 算法 Kafka
最近有學習些Kafak的源碼,想給大家分享下Kafak中改進的二分查找算法。二分查找,是每個程序員都應掌握的基礎算法,而Kafka是如何改進二分查找來應用于自己的場景中,這很值得我們了解學習。

[[356205]]

最近有學習些Kafak的源碼,想給大家分享下Kafak中改進的二分查找算法。二分查找,是每個程序員都應掌握的基礎算法,而Kafka是如何改進二分查找來應用于自己的場景中,這很值得我們了解學習。

由于Kafak把二分查找應用于索引查找的場景中,所以本文會先對Kafka的日志結構和索引進行簡單的介紹。在Kafak中,消息以日志的形式保存,每個日志其實就是一個文件夾,且存有多個日志段,一個日志段指的是文件名(起始偏移)相同的消息日志文件和4個索引文件,如下圖所示。

在消息日志文件中以追加的方式存儲著消息,每條消息都有著唯一的偏移量。在查找消息時,會借助索引文件進行查找。如果根據偏移量來查詢,則會借助位移索引文件來定位消息的位置。為了便于討論索引查詢,下文都將基于位移索引這一背景。位移索引的本質是一個字節數組,其中存儲著偏移量和相應的磁盤物理位置,這里偏移量和磁盤物理位置都固定用4個字節,可以看做是每8個字節一個key-value對,如下圖:

索引的結構已經清楚了,下面就能正式進入本文的主題“二分查找”。給定索引項的數組和target偏移量,可寫出如下代碼:

  1. private def indexSlotRangeFor(idx: ByteBuffer, target: Long, searchEntity: IndexSearchEntity): (IntInt) = { 
  2.   // _entries表示索引項的數量 
  3.   // 1. 如果當前索引為空,直接返回(-1,-1)表示沒找到 
  4.   if (_entries == 0) 
  5.     return (-1, -1) 
  6.  
  7.   // 2. 確保查找的偏移量不小于當前最小偏移量 
  8.   if (compareIndexEntry(parseEntry(idx, 0), target, searchEntity) > 0) 
  9.     return (-1, 0) 
  10.    
  11.   // 3. 執行二分查找算法,找出target 
  12.   var lo = 0 
  13.   var hi = _entries - 1 
  14.   while (lo < hi) { 
  15.     val mid = ceil(hi / 2.0 + lo / 2.0).toInt 
  16.     val found = parseEntry(idx, mid) 
  17.     val compareResult = compareIndexEntry(found, target, searchEntity) 
  18.     if (compareResult > 0) 
  19.       hi = mid - 1 
  20.     else if (compareResult < 0) 
  21.       lo = mid 
  22.     else 
  23.       return (mid, mid) 
  24.   } 
  25.    
  26.   (lo, if (lo == _entries - 1) -1 else lo + 1) 

上述代碼使用了普通的二分查找,下面我們看下這樣會存在什么問題。雖然每個索引項的大小是4B,但操作系統訪問內存時的最小單元是頁,一般是4KB,即4096B,會包含了512個索引項。而找出在索引中的指定偏移量,對于操作系統訪問內存時則變成了找出指定偏移量所在的頁。假設索引的大小有13個頁,如下圖所示:

由于Kafka讀取消息,一般都是讀取最新的偏移量,所以要查詢的頁就集中在尾部,即第12號頁上。下面我們結合上述的代碼,看下查詢最新偏移量,會訪問哪些頁。根據二分查找,將依次訪問6、9、11、12號頁。

當隨著Kafka接收消息的增加,索引文件也會增加至第13號頁,這時根據二分查找,將依次訪問7、10、12、13號頁。

可以看出訪問的頁和上一次的頁完全不同。之前在只有12號頁的時候,Kafak讀取索引時會頻繁訪問6、9、11、12號頁,而由于Kafka使用了mmap來提高速度,即讀寫操作都將通過操作系統的page cache,所以6、9、11、12號頁會被緩存到page cache中,避免磁盤加載。但是當增至13號頁時,則需要訪問7、10、12、13號頁,而由于7、10號頁長時間沒有被訪問(現代操作系統都是使用LRU或其變體來管理page cache),很可能已經不在page cache中了,那么就會造成缺頁中斷(線程被阻塞等待從磁盤加載沒有被緩存到page cache的數據)。在Kafka的官方測試中,這種情況會造成幾毫秒至1秒的延遲。

鑒于以上情況,Kafka對二分查找進行了改進。既然一般讀取數據集中在索引的尾部。那么將索引中最后的8192B(8KB)劃分為“熱區”,其余部分劃分為“冷區”,分別進行二分查找。代碼實現如下:

  1. private def indexSlotRangeFor(idx: ByteBuffer, target: Long, searchEntity: IndexSearchType): (IntInt) = { 
  2.   // 1. 如果當前索引為空,直接返回(-1,-1)表示沒找到 
  3.   if(_entries == 0) 
  4.     return (-1, -1) 
  5.  
  6.  // 二分查找封裝成方法 
  7.   def binarySearch(beginIntendInt) : (IntInt) = { 
  8.     var lo = begin 
  9.     var hi = end 
  10.     while(lo < hi) { 
  11.       val mid = (lo + hi + 1) >>> 1 
  12.       val found = parseEntry(idx, mid) 
  13.       val compareResult = compareIndexEntry(found, target, searchEntity) 
  14.       if(compareResult > 0) 
  15.         hi = mid - 1 
  16.       else if(compareResult < 0) 
  17.         lo = mid 
  18.       else 
  19.         return (mid, mid) 
  20.     } 
  21.     (lo, if (lo == _entries - 1) -1 else lo + 1) 
  22.   } 
  23.  
  24.   /** 
  25.    * 2. 確認熱區首個索引項位。_warmEntries就是所謂的分割線,目前固定為8192字節處 
  26.    * 對于OffsetIndex,_warmEntries = 8192 / 8 = 1024,即第1024個索引項 
  27.    * 大部分查詢集中在索引項的尾部,所以把尾部的8192字節設置為熱區 
  28.    * 如果查詢target在熱區索引項范圍,直接查熱區,避免頁中斷 
  29.    */ 
  30.   val firstHotEntry = Math.max(0, _entries - 1 - _warmEntries) 
  31.   // 3. 判斷target偏移值在熱區還是冷區 
  32.   if(compareIndexEntry(parseEntry(idx, firstHotEntry), target, searchEntity) < 0) { 
  33.     // 如果在熱區,搜索熱區 
  34.     return binarySearch(firstHotEntry, _entries - 1) 
  35.   } 
  36.  
  37.   // 4. 確保要查找的位移值不能小于當前最小位移值 
  38.   if(compareIndexEntry(parseEntry(idx, 0), target, searchEntity) > 0) 
  39.     return (-1, 0) 
  40.  
  41.   // 5. 如果在冷區,搜索冷區 
  42.   binarySearch(0, firstHotEntry) 

這樣做的好處是,在頻繁查詢尾部的情況下,尾部的頁基本都能在page cahce中,從而避免缺頁中斷。

下面我們還是用之前的例子來看下。由于每個頁最多包含512個索引項,而最后的1024個索引項所在頁會被認為是熱區。那么當12號頁未滿時,則10、11、12會被判定是熱區;而當12號頁剛好滿了的時候,則11、12被判定為熱區;當增至13號頁且未滿時,11、12、13被判定為熱區。假設我們讀取的是最新的消息,則在熱區中進行二分查找的情況如下:

當12號頁未滿時,依次訪問11、12號頁,當12號頁滿時,訪問頁的情況相同。當13號頁出現的時候,依次訪問12、13號頁,不會出現訪問長時間未訪問的頁,則能有效避免缺頁中斷。

關于為什么設置熱區大小為8192字節,官方給出的解釋,這是一個合適的值:

足夠小,能保證熱區的頁數小于等于3,那么當二分查找時的頁面都很大可能在page cache中。也就是說如果設置的太大了,那么可能出現熱區中的頁不在page cache中的情況。

足夠大,8192個字節,對于位移索引,則為1024個索引項,可以覆蓋4MB的消息數據,足夠讓大部分在in-sync內的節點在熱區查詢。

最后一句話總結下:在Kafka索引中使用普通二分搜索會出現缺頁中斷的現象,造成延遲,且結合查詢大多集中在尾部的情況,通過將索引區域劃分為熱區和冷區,分別搜索,將盡可能保證熱區中的頁在page cache中,從而避免缺頁中斷。

 

責任編輯:武曉燕 來源: 草捏子
相關推薦

2021-11-01 12:55:43

網絡

2022-03-28 10:03:58

二分查找算法

2022-03-29 07:52:21

運用技巧二分查找

2021-04-23 09:12:09

Java數據結構算法

2022-03-18 08:37:12

二分查找算法元素

2021-04-27 06:21:29

Java數據結構算法

2023-12-22 09:37:13

二分查找數組數據庫

2022-12-05 09:42:14

C++Python算法

2022-02-15 08:25:22

hash表快排二分查找

2020-12-04 10:13:09

算法二分法效率

2023-09-16 18:35:53

二分查找算法

2022-06-28 09:31:00

電影票兌換券券面值

2021-10-14 07:55:20

二分查找面試

2021-05-09 20:22:41

順序查找二叉查找數據結構

2021-02-24 07:46:20

數據結構二叉樹

2022-04-13 09:30:00

C++二分圖圖著色

2021-05-21 08:31:09

數據結構二叉樹

2022-06-26 00:29:26

分布式系統Redis

2023-12-27 23:30:50

2021-12-26 00:10:39

二分法排查版本
點贊
收藏

51CTO技術棧公眾號

欧美日韩经典丝袜| 欧美先锋资源| 一区二区三区四区精品在线视频| 三级在线免费观看| 国产在线不卡| 国产精品福利在线| 日韩精品亚洲aⅴ在线影院| yw.139尤物在线精品视频| 98色花堂精品视频在线观看| 欧美日韩一级黄| 日韩大片b站免费观看直播| 一区二区三区中文免费| 亚洲一区二区三区四区五区xx| 成人黄色在线视频| 日本xxxxxxxxxx75| 波多野结衣在线aⅴ中文字幕不卡| 亚洲欧洲一区二区| 蜜桃视频第一区免费观看| 欧美久久电影| 亚洲一区欧美激情| 欧美在线一区二区三区四区| 久久精品欧洲| 最新精品视频| 白白色亚洲国产精品| 国产精品后入内射日本在线观看| 国产成人精品免费在线| 国产综合av在线| 久久久久久久久久看片| 日本www.色| 亚洲色图在线播放| 97国产在线| 欧美亚洲综合一区| 成年人国产在线观看| 亚洲最大在线视频| 国产视频一区二区在线播放| 久久久女人电视剧免费播放下载 | 26uuu亚洲综合色欧美| 激情综合网俺也去| 亚洲制服丝袜av| 国产三级在线| 亚洲国产精久久久久久| 99精品视频在线免费播放| 国模视频一区二区三区| 亚洲国产精品久久久天堂| 日韩欧美一区二区三区久久婷婷| 粉嫩高潮美女一区二区三区| 成人影院在线观看视频| 欧美性大战久久久久久久| 中文字幕高清在线播放| 91干在线观看| 久久久xxx| 凹凸日日摸日日碰夜夜爽1| 亚洲国产成人精品视频| 成人免费高清观看| 97视频免费看| 国产视频一区欧美| 日本少妇高潮喷水视频| 午夜婷婷国产麻豆精品| 日本动漫理论片在线观看网站| 中文字幕亚洲精品| 日本道不卡免费一区| 日韩偷拍一区二区| 日韩美女精品在线| 中文字幕免费高清电视剧网站在线观看 | 免费欧美网站| 国产在线视频一区| 久久国产综合精品| av激情网站| 日韩女优电影在线观看| 国产成人aa在线观看网站站| 久久riav二区三区| 国产精品久久久久一区 | 小说区图片区图片区另类灬| 中文字幕日本乱码精品影院| 尤物视频在线看| 午夜精品一区二区三区av| 老司机精品久久| 男女视频网站免费观看| 亚洲黄色www| 91精品国偷自产在线电影| 成人黄色av片| 日韩欧美国产综合在线一区二区三区| 女仆av观看一区| 欧美少妇一级片| 91久久精品午夜一区二区| 国产精一区二区| 亚洲综合第一| 91国偷自产一区二区使用方法| 国产不卡精品| 亚洲一区二区在| 91豆麻精品91久久久久久| 成人h动漫精品一区二区器材| 日韩国产欧美精品| 欧美日韩亚洲精品内裤| 中文在线综合| 亚洲 国产 日韩 综合一区| 欧美日韩视频在线| 这里视频有精品| 亚洲色婷婷久久精品av蜜桃| 制服丝袜中文字幕一区| 久久久久久久久99精品大| 成年人免费看的视频| 久久久久999| 成人激情小说乱人伦| 日韩脚交footjobhd| 欧美日韩国产不卡在线看| 欧美日韩另类在线| 你微笑时很美电视剧整集高清不卡 | 美女福利一区| 动漫av网站免费观看| 精品亚洲一区二区| 久久精品主播| 69久久精品| 91一区二区三区| 亚洲一区二区在线免费看| 国产乱论精品| 99sesese| 高清在线视频日韩欧美| 久久亚洲捆绑美女| 国产成+人+综合+亚洲欧美| 激情图片qvod| 亚洲精品中文字幕女同| 韩日av一区二区| 激情都市亚洲| 很污的网站在线观看| 国产午夜精品一区理论片飘花 | 亚洲精品一区二区在线播放∴| 中日韩在线视频| 国产偷国产偷亚洲清高网站| 精品一区二区三区免费播放| 黄色污污视频在线观看| 日韩福利视频| 日韩精品视频在线| 国产精品123| 欧美成a人片免费观看久久五月天| 日韩欧美精品免费| 日韩一区在线视频| 国产精品盗摄一区二区三区| 日韩深夜影院| 在线看片你懂的| 国产精品一国产精品最新章节| 欧美另类高清zo欧美| 丝袜美腿亚洲色图| 三级成人黄色影院| 国产高清精品在线观看| 91精品国产高清| 狠狠躁夜夜躁久久躁别揉| 一区二区高清| 东京一区二区| 中文字幕国产免费| 亚洲aa在线观看| 欧美成人三级在线| 成人激情文学综合网| 国产毛片久久久| 久草在线青青草| 亚洲欧美99| 欧美—级高清免费播放| 精品国产户外野外| 日韩中文字幕av电影| 四虎影视成人精品国库在线观看 | 成人免费高清观看| 91动漫在线看| 欧美资源在线观看| 欧美日韩综合色| 高清国产午夜精品久久久久久| 黄色欧美网站| 91在线不卡| 久久久久久久9| 国产精品pans私拍| 精品久久久久久久久久久久久久久久久 | 亚洲欧美在线综合| 日韩欧美国产精品一区二区三区| 亚洲最大福利视频| 日韩精品极品视频免费观看| 中日韩免费视频中文字幕| 91tv精品福利国产在线观看| a'aaa级片在线观看| 又黄又爽毛片免费观看| 久久亚洲高清| 欧美精品aaa| 欧美一区二区视频免费观看| 91麻豆精品在线观看| 我不卡影院28| 国产黄色一区| 高清毛片在线看| 免费高清在线观看免费| 国产精品午夜av在线| 欧美成人午夜剧场免费观看| 在线国产亚洲欧美| 91在线精品一区二区三区| 91成人免费| 日韩欧美一级| 黄色在线免费看| 91大神影片| 国产制服91一区二区三区制服| 91精品国产综合久久香蕉922| 中文字幕国产精品| 在线播放视频一区| 一区二区三区在线不卡| heyzo一本久久综合|