国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

ServerFrame::HashMap VS stl::unordered_map-性能探究之旅

企業動態
突然就對項目中的HashMap有了強烈的好奇心,這個HashMap的實現夠高效嗎,和 std::unordered_map 的效率比較性能如何?

[[203360]]

1. 引言

突然就對項目中的HashMap有了強烈的好奇心,這個HashMap的實現夠高效嗎,和 std::unordered_map 的效率比較性能如何? 他們的插入效率、查找效率、空間使用率對比起來是分別是什么樣的?也沒有找到相關的測評,于是就自己動手,測試了一下,并對一些影響性能的地方修改、驗證自己的猜想,最終得到一個比較好的hashmap的實踐。整個過程還是比較有意思的,現記錄并分享出來。

1.1 好了別的不說了給我結論就好

好吧,大家都很忙,先給一下簡要結論,時間緊迫的同學也可以直接跳到文尾查看結論小節.

  1. ServerFrame::HashMap 的哈希算法算出來的哈希值散列度不夠,key的長度越長,散列能力越差,性能越差。
  2. 因為沖突處理的緣故,本文所做的幾個用例中,極端情況下 ServerFrame::HashMap 的表現比 stl::unordered_map 差100倍;
  3. 哈希算法散列程度足夠的時候,ServerFrame::HashMap 的表現比 stl::unordered_map 好。前者的插入效率是后者的10倍,查找效率3倍;
  4. 存儲同樣的數據,HashMap 耗內存多于 unordered_map;

1.2 show me the code

本文用到的測試代碼和測試結果全部在 git.oa.com中,有興趣的同學可以下載查看。

  1. 倉庫路徑:http://git.code.oa.com/lawrencechi/hashmap-benchmark.git 
  2. 成文時倉庫版本 tag:v2.0 
  3. 內存: 12G 
  4. cpu 2核:   i7-6700 CPU 3.40GHz 
  5. ServerFrame::HashMap: 編譯時預設的容量是 8000萬 
  6.  
  7. 測試用例: 
  8. lawrencechi@lawrencechi-VirtualBox /data/hashmap-benchmark/hashmap-benchmark/build ±master:zap: » ./bm_hashmap.O2 
  9. Usage: bm_hashmap.O2 [-n count] -hijklmop 
  10.    -h: hashmap-int 
  11.    -i: hashmap-string(32 byte) 
  12.    -j: unordered-map-int 
  13.    -k: unordered-map-string 
  14.    -l: hashmap(32 byte)) idx 
  15.    -m: hash<string> idx 
  16.    -o: hashmapplus(32 byte)) idx 
  17.    -p: hashmapplus-string(32 byte)) 

2.int類型key

2.1用例結果

執行./bm_hashmap.O2 -n 700 -hj,獲得數據,并繪制圖表如下(畫圖數據經過省略,但關鍵信息還在,下同)

[圖: 2.1插入耗時 ]

[ 圖:2.1查找耗時 ]

總體來看,兩個實現的效率都很高,穩定(斜率不變,意味著單位時間內插入條數沒有變化),插入8000萬條數據最多只需要4.5s, 在使用 ServerFrame::HashMap插入數據的時候,HashMap甚至能夠達到 stl::unordered_map的10倍;當key不存在的時候,HashMap 查找速度也比 unordered_map 快4倍, key 存在的時候,容量少于5000萬條時,HashMap 比 unordered_map 快,只有大于5000萬時,兩者查找的速度才相差不大。

這次測試看起來 HashMap 實現得非常完美,很好地解決了預設需求,插入效率高、查找效率高。雖然耗費的內存多,僅存8000萬個int的 HashMap 需要 3.5G 的內存,但現代服務器內存充足,這個缺點似乎是可以忍受的。

除了內存之外,ServerFrame::HashMap 的實現就沒有其他的缺點了嗎? 很快,我就想到了他的 Hash 函數和沖突處理,決定從這里入手繼續分析。

2.2 隱憂:hash算法

ServerFrame::HashMap 的 hash 算法實現是將 key 的 buffer(sizeof(key)),按照 int 字節累加,并將其結果和哈希表容量進行取余,簡單粗暴,而且似乎也符合大道至簡的理論。但是仔細想想,這個地方的實現違背了哈希算法的原則:均衡性。一個不夠均衡性的算法會導致大量沖突,最終使得HashMap在反復的沖突處理中疲于奔命。

很簡單,按照這個算法下面的這些數據算得到的哈希值都是一樣的,而且這樣的數據可以輕易地構造:

  1. 0xFFFFFFFF, 
  2. 0xFFFFFFFF 00000000 
  3. 0xFFFFFFFF 00000000 00000000 
  4. 0xFFFFFFFF 00000000 00000000 00000000 

最為對比,我們都知道構造兩個擁有同樣MD5值的數據是何等的困難。

而且仔細分析一下可以知道 2.1 用例剛好繞過了這個算法的缺陷,取到的key都不會相互沖突! 這時候的測試結果恰恰是最優結果!

如果沖突了會怎么樣,測試結果變成怎么樣? 在好奇心驅使下,我馬上進行 3.1 用例的測試。

3. buffer(32byte)類型

3.1用例結果

執行./bm_hashmap.O2 -n 700 -ik,獲得數據,并繪制圖表如下

[圖: 3.1插入耗時 ]

從上圖可以看到,對于buffer類型的key,性能表現差異很大.

從HashMap的圖來看,越到后面斜率越大,說明到后面的時候,插入單位條數的耗時已經急劇增長。這是符合我們的設想的,此時程序在拼命進行沖突處理!

從圖中還可以得到一個信息,插入7000萬條數據,HashMap的耗時是接近2500秒,也就是41分鐘!

至于unordered_map,上圖已經分析不出什么東西來,和HashMap比起來,它的變化太緩慢了。我只能抽出來單獨分析,圖如下:

[ [圖:3.1插入耗時-unordered_map ]

unordered_map 斜率幾乎不變,可以知道每次插入的耗時是相同的,穩定,插入7000萬條數據,耗時25s,HashMap差不多是他的100倍。

從上面的測試結果可知 HashMap 的效率的確是急劇下降,但是這個急劇下降是 Hash 算法引起的嗎? 還是需要定量分析!

4. hash 算法比較

4.1 unordered_map

stl::unordered_map 是C++11引進的,老版本也有,只是沒有提供接口出來供外部使用。

恰好手頭上有 gcc 4.9.3 的代碼,于是一探究竟

  1. //代碼片段 ================== 
  2.     //file:/data/study/gcc/gcc.4.9.3/gcc-4.9.3/libstdc++-v3/libsupc++/hash_bytes.cc +73 
  3.     size_t _Hash_bytes(const void* ptr, size_t len, size_t seed) 
  4.     { 
  5.         const size_t m = 0x5bd1e995; 
  6.         size_t hash = seed ^ len; 
  7.         const char* buf = static_cast<const char*>(ptr); 
  8.  
  9.         // Mix 4 bytes at a time into the hash. 
  10.         while(len >= 4) 
  11.         { 
  12.             size_t k = unaligned_load(buf); 
  13.             k *= m; 
  14.             k ^= k >> 24; 
  15.             k *= m; 
  16.             hash *= m; 
  17.             hash ^= k; 
  18.             buf += 4; 
  19.             len -= 4; 
  20.         } 
  21.  
  22.         // Handle the last few bytes of the input array. 
  23.         switch(len) 
  24.         { 
  25.             case 3: 
  26.                 hash ^= static_cast<unsigned char>(buf[2]) << 16; 
  27.             case 2: 
  28.                 hash ^= static_cast<unsigned char>(buf[1]) << 8; 
  29.             case 1: 
  30.                 hash ^= static_cast<unsigned char>(buf[0]); 
  31.                 hash *= m; 
  32.         }; 
  33.  
  34.         // Do a few final mixes of the hash. 
  35.         hash ^= hash >> 13; 
  36.         hash *= m; 
  37.         hash ^= hash >> 15; 
  38.         return hash; 
  39.     } 

對于可以轉換成 size_t 類型的key,hash提供了幾個特化哈希函數,直接返回((size_t)key),上面的哈希函數是buffer類型的哈希函數,傳入起始地址,得到哈希值。這個hash算法用了幾個魔數,各種位運算得到一個 int32 的值,好吧,此時我已經不知道怎么才能構造兩個碰撞數據了。

最為對比,HashMap的hash函數如下:

  1. template <typename KEY_TYPE, typename DATA_TYPE, int NODE_SIZE, typename CMP_FUNC, int HASH_SIZE> 
  2. int CHashMap<KEY_TYPE, DATA_TYPE, NODE_SIZE, CMP_FUNC, HASH_SIZE>::HashKeyToIndex(const KEY_TYPE& rstKey, int& riIndex) const 
  3.     size_t uiKeyLength = sizeof(rstKey); 
  4.     unsigned int uiHashSum = 0; 
  5.  
  6.     //目前Hash算法實現比較簡單只是將Key值的每個字節的值加起來并對SIZE取模 
  7.     unsigned int i; 
  8.     for( i = 0; i < uiKeyLength / sizeof(unsigned int); ++i) 
  9.     { 
  10.         unsigned int uiTmp = 0; 
  11.         memcpy(&uiTmp, ((char*)(&rstKey))+sizeof(uiTmp)*i, sizeof(uiTmp)); 
  12.         uiHashSum += uiTmp; 
  13.     } 
  14.  
  15.     if(uiKeyLength % sizeof(unsigned int) > 0) 
  16.     { 
  17.         unsigned char* pByte = (unsigned char*)&rstKey; 
  18.         pByte += (uiKeyLength - (uiKeyLength % sizeof(unsigned int))); 
  19.         unsigned int uiTemp = 0; 
  20.         memcpy((void *)&uiTemp, (const void *)pByte, uiKeyLength%sizeof(unsigned int)); 
  21.         uiHashSum += uiTemp; 
  22.     } 
  23.  
  24.     uiHashSum = (uiHashSum & ((unsigned int)0x7fffffff)); 
  25.     riIndex = (int)(uiHashSum % HASH_SIZE); 
  26.     return 0; 

4.2 用例設計

4.3 用例結果

執行./bm_hashmap.O2 -n 700 -lm,獲得數據,并繪制圖表如下

碰撞太頻繁了,為了可讀性,這里對原始數據做了二次統計。統計每一個沖突鏈表的長度,以及key數量和占比。key數量之和是 7000萬,占比之和是100%。

這個表格就一目了然了:

  • 我們最期望的結果是沒有沖突,也就是鏈表長度為1,僅占比0.265%!
  • 絕大部分的沖突鏈表長度在100以上, 占了總量的 95%.
  • 最長的鏈表達到了 5000以上,而且占比 有 0.705%,比我們期望的不沖突的占比還多了3倍。也就是說最差情況的比最好情況多了3倍。

作為對比,stl::unordered_map 的結果就好看很多了,甚至都不需要進行二次統計、處理:

那么,猜想一下,如果替換掉 ServerFrame::HashMap 的哈希算法,是不是測試的效果就會好很多呢?

5. 升級HashMap hash算法之后測試

開搞,把gcc4.9.3的哈希算法移植到 ServerFrame::HashMap,并放到一個新命名空間中,另存為文件 HashMapPlush.hpp。 重做3.1的測試用例 ./bm_hashmap.O2 -n 700 -lm,獲得數據,并繪制圖表如下

可見升級哈希算法之后,沖突還是存在,但是沖突鏈表過長的現象已經不存在了,最長的沖突鏈表長度也只有10。此時可以想象耗時數據肯定好了很多。

[ 圖:5.1插入耗時 ]

可見,調整較小,但是效果比較明顯

ServerFrame::HashMap 的插入耗時是 unordered_map 的 1/2;

ServerFrame::HashMap 斜率很穩,可見插入耗時比較穩定

6. 結論

從上面的實驗可以看出,影響 HashMap 效率的主要是 哈希算法 和 內存分配算法,在哈希算法足夠散列的情況下,預分配方式的效率更高。

空間換時間的策略是對的,兩個影響因素,另個不夠好的時候,靠空間得到的優勢反而會損失;

原文鏈接:https://www.qcloud.com/community/article/625434

【本文是51CTO專欄作者“騰訊云技術社區”的原創稿件,轉載請通過51CTO聯系原作者獲取授權】

戳這里,看該作者更多好文

責任編輯:武曉燕 來源: 51CTO專欄
相關推薦

2022-08-12 12:23:55

golangmap數據結構

2025-04-22 08:39:14

編程容器map

2024-03-18 09:44:02

HashMap算法Java

2023-01-05 08:55:00

2025-09-30 09:34:14

2023-11-21 16:13:38

C++代碼

2017-01-04 10:18:00

React NativScrollViewAndroid

2021-07-09 09:12:40

STL排序算法

2011-02-22 09:40:18

HashMap

2020-05-18 07:00:00

性能測試壓力測試負載測試

2011-06-08 16:59:04

性能測試載測試壓力測試

2017-06-09 11:00:42

前端DOMElement

2014-04-28 10:17:01

2023-01-30 08:42:33

CSS選擇器性能

2024-06-24 07:00:00

C++RustGo

2020-09-16 12:23:37

TypeScript

2024-12-17 08:28:30

2010-03-10 18:42:30

Python性能

2020-11-20 14:02:22

HashMap遍歷Java

2015-01-06 09:59:03

點贊
收藏

51CTO技術棧公眾號

国产精品激情av在线播放| 国产精品一级片在线观看| 中文字幕日韩亚洲| 综合成人在线| 国产视频在线观看一区二区三区| 亚洲日本aⅴ片在线观看香蕉| 国产不卡av在线| 中文字幕网在线| jlzzjlzz亚洲女人| 风流少妇一区二区| www.精品av.com| 欧美一级片免费播放| 色爱综合区网| 国产原创一区| 久久久久久麻豆| 欧美激情2020午夜免费观看| 色婷婷综合网站| 51精品国产| 国产精品久久夜| 隔壁老王国产在线精品| 久久久久成人黄色影片| 日韩一级欧洲| 777午夜精品电影免费看| 国产在线视频网| 国产精品无码专区av在线播放| 国产在线视频欧美一区二区三区| 欧美成人性色生活仑片| 精品盗摄一区二区三区| 都市激情亚洲色图| 中文欧美字幕免费| 久久 天天综合| 亚洲福利久久| 欧美日韩国产传媒| 亚洲91网站| 免费成人动漫| av在线播放观看| 成r视频免费观看在线播放| 色噜噜国产精品视频一区二区| 欧美日韩亚洲天堂| 国产精品国产a级| 成人午夜激情在线| 日本不卡视频在线观看| 亚洲一本视频| 91嫩草亚洲精品| 小说区图片区色综合区| 91精品国产自产观看在线 | 一区二区三区视频免费观看| 亚洲欧美一区二区三区| 黄色在线论坛| 视频午夜在线| av不卡在线观看| 久久成人资源| 9色在线观看| 日韩精品视频在线| 91亚洲午夜精品久久久久久| 91精品久久香蕉国产线看观看| 91欧美在线| 国产成人亚洲欧美| 久久国产精品色婷婷| 99免费视频观看| 窝窝社区一区二区| 在线亚洲一区观看| 成人h视频在线观看| 成人无遮挡免费网站视频在线观看| 免费在线成人| 亚洲成人一区二区在线观看| 久久伊人色综合| 99精品国产高清在线观看| 国产精品国产亚洲精品看不卡| 久操视频在线观看| 欧美裸体在线版观看完整版| 91在线精品一区二区三区| 综合一区av| www.欧美色图| 精品国产一区二区三区四区在线观看 | 色婷婷精品久久二区二区蜜臂av| 大西瓜av在线| 波多野结衣精品在线| 欧美xxxx老人做受| 97影院秋霞午夜在线观看| 亚洲亚洲精品在线观看| 欧美高清xxxxxkkkkk| 国产精品久久久久久久久动漫| 国产视频九色蝌蚪| 91蜜桃在线免费视频| 97在线播放视频| 91污在线观看| 97涩在线观看视频| 天天射综合影视| 成人av视屏| 久久精品国产精品亚洲精品| 91原创在线视频| 浴室偷拍美女洗澡456在线| 亚洲午夜电影| 久久久在线免费观看| av福利导福航大全在线| 欧美在线视频全部完| 999精品网站| 国产69精品久久777的优势| 成人激情av在线| 四虎在线精品| 今天的高清视频免费播放成人| 日韩精品在线看| 91porn在线观看| 国产精品系列在线观看| 亚洲国内高清视频| 亚洲v国产v| 国产激情一区| 亚洲免费影视第一页| 韩国久久久久久| 五月天激情小说综合| 人成网站免费观看| jizz国产| 精品一区二区免费| 风间由美一区二区三区| 99re66热这里只有精品8| 精品中文字幕乱| 神马久久影视大全| 凹凸av导航大全精品| 国产精品亲子乱子伦xxxx裸| 亚洲aⅴ日韩av电影在线观看| 欧美一级做一级爱a做片性| 日韩三级在线观看| 18性欧美xxxⅹ性满足| 羞羞视频立即看| 日韩高清一级片| 日韩欧美视频一区二区三区四区| 久久国产福利| 日产精品一线二线三线芒果| 日韩午夜高潮| 国产原创精品| 国产一区欧美日韩| 91.com在线| 国产人妖乱国产精品人妖| 日韩精品中文字幕久久臀| 日本在线看片免费人成视1000| 亚洲一级二级在线| 亚洲欧美日韩一级| 国产精品99精品久久免费| 97神马电影| 亚洲特级毛片| 国产精品美女av| 日韩中出av| 欧美激情视频给我| 草民电影神马电影一区二区| 777色狠狠一区二区三区| h网站在线免费观看| 日日夜夜亚洲| 精品美女被调教视频大全网站| 一级黄色特级片| 国产精品污www在线观看| a毛片在线播放| 午夜激情一区二区三区| 妞干网视频在线观看| 色无极亚洲影院| 国产欧美精品一区二区色综合朱莉| 欧美日韩视频免费| 国产精品久久久久国产精品日日| 亚洲精华国产| 97偷自拍亚洲综合二区| 精品国产乱码久久久久久郑州公司| 麻豆高清免费国产一区| 99在线精品免费视频| 99精品视频在线观看免费| 久久综合国产精品台湾中文娱乐网| 91综合精品国产丝袜长腿久久| 国产91精品久久久久久| 国产精品a久久久久| 免费大片在线观看| 91福利资源站| 久久亚洲人体| 午夜精品在线视频| 国产麻豆精品久久| 国产精品国产精品国产专区蜜臀ah| 伊人精彩视频| 色爱区综合激月婷婷| 亚洲精品视频在线免费| 欧美在线一二三四区| 日韩特级毛片| 中文字幕日本精品| 在线观看视频一区二区三区| 成人两性免费视频| 最新成人av网站| 日产国产精品精品a∨| 久久久久国产精品一区二区 | 国产高清精品一区| 日韩高清欧美| 国产精品久久久久久久久久 | 一区二区三区不卡在线视频| 国产欧美在线观看一区| 2022亚洲天堂| 在线日本中文字幕| 5566日本婷婷色中文字幕97| 毛片一区二区三区| 撸视在线观看免费视频| 国语自产精品视频在线看| www.久久.com| 欧美极品少妇xxxxx| 免费日韩一区二区| 久久精品国产亚洲a∨麻豆|