国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

關于多線程同步的一切:偽共享

開發
導致f()性能底下的元兇是偽共享(false sharing),那什么是偽共享?

```c++
const size_t shm_size = 16*1024*1024; //16M
static char shm[shm_size];
std::atomic<size_t> shm_offset{0};


void f() {
for (;;) {
auto off = shm_offset.fetch_add(sizeof(long));
if (off >= shm_size) break;
*(long*)(shm + off) = off;
}
}
```

考察上面的程序,shm是一塊16M字節的內存,我測試機器的L3 Cache是32M,所以挑選16M這個值確保shm數組在Cache里能存放得下。

圖片

f()函數在循環里,把shm視為long類型的數組,依次給每個元素賦值,shm_offset用于記錄偏移位置,shm_offset.fetch_add(sizeof(long))原子性的增加shm_offset的值(因為x86_64系統上long的長度為8,所以shm_offset每次增加8字節),并返回增加前的值,對shm上long數組的每個元素賦值后,結束循環從函數返回。

因為shm_offset是atomic類型變量,所以多線程調用f()依然能正常工作,雖然多個線程會競爭shm_offset,但每個線程會排他性的對各long元素賦值,多線程并行會加快對shm的賦值操作。

我們加上多線程調用,代碼如下:

```c++
std::atomic<size_t> step{0};


const int THREAD_NUM = 2;


void work_thread() {
const int N = 10;
for (int n = 1; n <= N; ++n) {
f();
++step;
while (step.load() < n * THREAD_NUM) {}
shm_offset = 0;
}
}


int main() {
std::thread threads[THREAD_NUM];
for (int i = 0; i < THREAD_NUM; ++i) {
threads[i] = std::move(std::thread(work_thread));
}
for (int i = 0; i < THREAD_NUM; ++i) {
threads[i].join();
}
return 0;
}
```

  • main函數里啟動2個工作線程work_thread
  • 工作線程對shm共計賦值N(10)輪,后面的每一輪會訪問Cache里的shm數據,step用于work_thread之間每一輪的同步
  • 工作線程調用完f()后會增加step,等2個工作線程都調用完之后,step的值增加到n * THREAD_NUM后,while()循環結束,重置shm_offset,重新開始新一輪對shm的賦值

編譯后執行上面的程序,產生如下的結果:

```
time ./a.out

real 0m3.406s
user 0m6.740s
sys 0m0.040s
```

time命令用于時間測量,在a.out程序運行完成,會打印耗時,real行顯式耗時3.4秒。

改進版f_fast

我們稍微修改一下f函數,改進版f函數取名f_fast:

```c++
void f_fast() {
for (;;) {
const long inner_loop = 16;
auto off = shm_offset.fetch_add(sizeof(long) * inner_loop);
for (long j = 0; j < inner_loop; ++j) {
if (off >= shm_size) return;
*(long*)(shm + off) = j;
off += sizeof(long);
}
}
}
```

for循環里,shm_offset不再是每次增加8字節(sizeof(long)),而是8*16=128字節,然后在內層的循環里,依次對16個long連續元素賦值,然后下一輪循環又再次增加128字節,直到完成對整個shm的賦值。

編譯后重新執行程序,結果顯示耗時降低到0.06秒,對比前一種耗時3.4秒,f_fast性能大幅提升。

```
time ./a.out

real 0m0.062s
user 0m0.110s
sys 0m0.012s
```

f和f_fast的行為差異

shm數組總共有2M個long元素,因為16M / sizeof(long) => 2M,

1. f()函數行為邏輯

線程1和線程2的work_thread里會交錯地對shm元素賦值,shm的2M個long元素,會順序的一個接一個的派給2個線程去賦值。

例如:

  • 可能元素1由線程1賦值,元素2由線程2賦值,然后元素3和元素4由線程1賦值,然后元素5由線程2賦值...
  • 每次派元素的時候,shm_offset都會atomic的增加8字節,所以不會出現2個線程給1個元素賦值的情況

2. f_fast()函數行為邏輯

  • 每次派元素的時候,shm_offset原子性的增加128字節(16個元素)
  • 這16個字節作為一個整體,派給線程1或者線程2;雖然線程1和線程2還是會交錯的操作shm元素,但是以16個元素(128字節)為單元,這16個連續的元素不會被分派到不同線程
  • 一次派發的16個元素,會在內部循環里被一個接著一個的賦值,在一個線程里執行

為什么f_fast更快?

第一眼感覺是f_fast()里shm_offset.fetch_add()調用頻次降低到了原來的1/16,我們有理由懷疑是原子變量的競爭減少導致程序執行速度加快。

為了驗證,讓我們在內層的循環里加一個原子變量test的fetch_add,test原子變量的競爭會像f()函數里shm_offset.fetch_add()一樣被激烈競爭,修改后的f_fast代碼變成下面這樣:

```c++
void f_fast() {
for (;;) {
const long inner_loop = 16;
auto off = shm_offset.fetch_add(sizeof(long) * inner_loop);
for (long j = 0; j < inner_loop; ++j) {
test.fetch_add(1);
if (off >= shm_size) return;
*(long*)(shm + off) = j;
off += sizeof(long);
}
}
}
```

為了避免test.fetch_add(1)的調用被編譯器優化掉,我們在main函數的最后把test的值打印出來。

編譯后測試一下,結果顯示:執行時間只是稍微增加到`real 0m0.326s`。所以,很顯然,并不是atomic的調用頻次減少導致性能飆升。

我們重新審視f()循環里的邏輯:f()循環里的操作很簡單:原子增加、判斷、賦值。

會不會是賦值太慢?

我們把f()的里賦值注釋掉,再測試一下,發現它的速度得到了很大提升,看來是`*(long*)(shm + off) = off;`這一行代碼執行慢,但這明明只是一行賦值。

我們把它反匯編來看,它只是一個mov指令,源操作數是寄存器,目標操作數是內存地址,從寄存器拷貝數據到一個內存地址,而這個內存數據應該被cache住了,為什么會這么慢呢?

答案

現在揭曉原因,導致f()性能底下的元兇是偽共享(false sharing),那什么是偽共享?

要說清這個問題,還得聯系CPU的架構,以及CPU怎么訪問數據,我們回顧一下關于多核Cache結構:

圖片

背景知識

我們知道現代CPU可以有多個核,每個核有自己的L1-L2緩存,L1又區分數據緩存(L1-DCache)和指令緩存(L1-ICache),L2不區分數據和指令Cache,而L3跨核共享,L3通過內存總線連接到內存,內存被所有CPU所有Core共享。

CPU訪問L1 Cache的速度大約是訪問內存的100倍,Cache作為CPU與內存之間的緩存,減少CPU對內存的訪問頻率。

從內存加載數據到Cache的時候,是以Cache Line為長度單位的,Cache Line的長度通常是64字節。

所以,那怕只讀一個字節,但是包含該字節的整個Cache Line都會被加載到緩存,同樣,如果修改一個字節,那么最終也會導致整個Cache Line被沖刷到內存。

如果一塊內存數據被多個線程訪問,假設多個線程在多個Core上并行執行,那么它便會被加載到多個Core的的Local Cache中;這些線程在哪個Core上運行,就會被加載到哪個Core的Local Cache中,所以,內存中的一個數據,在不同Core的Cache里會同時存在多份拷貝。

如果我們修改了Core1緩存里的某個數據,則該數據所在的Cache Line的狀態需要同步給其他Core的緩存,Core之間可以通過核間消息同步狀態,比如通過發送Invalidate消息給其他核,接收到該消息的核會把對應Cache Line置為無效,然后重新從內存里加載最新數據。

被加載到多個Core緩存中的同一Cache Line,會被標記為共享(Shared)狀態,對共享狀態的緩存行進行修改,需要先獲取緩存行的修改權(獨占),MESI協議用來保證多核緩存的一致性,更多的細節可以參考MESI資料。

示例分析

現在來看看我們的程序。

假設線程1運行在Core1,線程2運行在Core2。

圖片

因為shm被線程1和線程2這兩個線程并發訪問,所以shm的內存數據會以Cache Line粒度,被同時加載到2個Core的Cache,因為被多核共享,所以該Cache Line被標注為Shared狀態。

假設線程1在offset為64的位置寫入了一個8字節的數據(sizeof(long)),要修改一個狀態為Shared的Cache Line,Core1會發送核間通信消息到Core2,去拿到該Cache Line的獨占權,在這之后,Core1才能修改Local Cache。

圖片

線程1執行完`shm_offset.fetch_add(sizeof(long))`后,shm_offset會增加到72。

這時候Core2上運行的線程2也會執行`shm_offset.fetch_add(sizeof(long))`,它返回72并將shm_offset增加到80。

圖片

線程2接下來要修改shm[72]的內存位置,因為shm[64]和shm[72]在一個Cache Line,而這個Cache Line又被置為Invalidate,所以,它需要從內存里重新加載這一個Cache Line,而在這之前,Core1上的線程1需要把Cache Line沖刷到內存,這樣線程2才能加載最新的數據。

圖片

這種交替執行模式,相當于Core1和Core2之間需要頻繁的發送核間消息,收到消息的Core的對應Cache Line被置為無效,并重新從內存里加載數據到Cache,每次修改后都需要把Cache中的數據刷入內存。

這其實相當于廢棄掉了Cache,因為每次讀寫都直接跟內存打交道,Cache的作用不復存在,性能下降。

多核多線程程序,因為并發讀寫同一個Cache Line的數據(臨近位置的內存數據),導致Cache Line的頻繁失效,內存的頻繁Load/Store,從而導致性能急劇下降的現象叫偽共享,偽共享是性能殺手。

另一個偽共享的例子

假設線程x和y,分別修改Data的a和b變量,如果被頻繁調用,根據前面的分析,也會出現性能低下的情況,怎么規避呢?

```c++
struct Data {
int a;
int b;
};

Data data; // global

void thread1() {
data.a = 1;
}

void thread2() {
data.b = 2;
}
```

**空間換時間**

避免Cache偽共享導致性能下降的思路是用空間換時間,通過在a和b成員之間增加填充,讓a、b兩個變量分布到不同的Cache Line,這樣對a和b的修改就會作用于不同Cache Line,就能避免Cache line失效的問題。

```c++
struct Data {
int a;
int padding[60];
int b;
};
```

在Linux kernel中存在__cacheline_aligned_in_smp宏定義用于解決false sharing問題。

圖片

```c
#ifdef CONFIG_SMP
#define __cacheline_aligned_in_smp __cacheline_aligned
#else
#define __cacheline_aligned_in_smp
#endif

struct Data {
int a;
int b __cacheline_aligned_in_smp;
};
```

從上面的宏定義,我們可以看到:

  • 在多核(MP)系統里,該宏定義是 __cacheline_aligned,也就是Cache Line的大小
  • 在單核系統里,該宏定義是空的

偽共享的疑問

既然多CPU多核并發讀寫一個Cache Line里的內存數據,會出現偽共享,那么,我們對`atomic<size_t> shm_offset`的fetch_add()操作也滿足這個條件,多個線程同時對同一個shm_offset變量并發讀寫,那為什么性能不會很差呢?

我們反匯編發現`atomic.fetch_add`會被翻譯成`lock; xadd %rax (%rdx)`,lock是一個指令前綴,配合其他指令使用。

bus lock做的事情就是鎖住總線,然后執行后面的xadd,在此期間,別的線程都不能訪問任何內存數據。

實際上,鎖總線的操作比較重,相當于全局的內存總線鎖,lock前綴之后的指令操作就直接作用于內存,bypass掉緩存,lock也相當于內存屏障。

但翻看Intel手冊發現,執行lock指令,CPU會根據情況自行決定到底是鎖緩存,還是assert #LOCK signal(鎖總線)。

如果訪問的內存區域已經緩存在處理器的緩存行中,Intel的現代處理器則不會assert #LOCK信號,它會對CPU的緩存中的緩存行進行鎖定,在鎖定期間,其它CPU不能同時緩存此數據,在修改之后,通過緩存一致性協議來保證修改的原子性,這個操作被稱為“緩存鎖”。

false sharing對應的是多線程同時讀寫一個Cache Line的多個數據,Core-A修改數據x后,會置Cache Line為Invalid,Core-B讀該緩存行的另一個數據y,需要Core-A把Cache Line Store到內存,Core-B再從內存里Load對應Cache Line,數據要過內存。

而atomic,多個線程修改的是同一個變量。lock指令前綴,應該會用到緩存鎖(鎖Cache Line),atomic在Cache Line里的最新值通過核間消息發送給其他核就可以了,不需要頻繁的Store/Load,所以性能不會那么糟。

責任編輯:趙寧寧 來源: 碼磚雜役
相關推薦

2022-08-21 17:35:31

原子多線程

2022-08-13 11:53:52

多線程內存

2022-08-28 20:28:04

線程lock-free

2020-09-11 10:55:10

useState組件前端

2018-11-23 11:17:24

負載均衡分布式系統架構

2021-02-19 23:08:27

軟件測試軟件開發

2021-02-28 09:47:54

軟件架構軟件開發軟件設計

2020-10-14 08:04:28

JavaScrip

2021-05-28 07:12:59

Python閉包函數

2011-11-30 09:28:37

iCloud信息圖云計算

2023-04-20 10:15:57

React組件Render

2022-04-02 09:38:00

CSS3flex布局方式

2023-02-10 08:44:05

KafkaLinkedIn模式

2018-01-05 14:23:36

計算機負載均衡存儲

2021-08-09 14:40:02

物聯網IOT智能家居

2023-07-10 10:36:17

人工智能AI

2018-01-17 09:15:52

負載均衡算法

2023-04-12 14:04:48

光纖網絡

2023-02-27 15:47:31

2020-11-17 10:38:40

云計算工具技術
點贊
收藏

51CTO技術棧公眾號

91亚洲无吗| 日韩精品一区二区三区色欲av| 国产日韩三级在线| 精品精品导航| 成人动漫在线视频| 亚洲国产三级在线| jiujiure精品视频播放| 又黄又爽毛片免费观看| 久久99精品视频一区97| 国产成人精品aa毛片| 日韩脚交footjobhdboots| 日本一区免费| 欧美不卡一区二区三区四区| 宅男噜噜噜66国产日韩在线观看| 日本精品专区| 91精品久久久久久综合乱菊| 亚洲成人一区二区在线观看| 成人综合一区| 香蕉av一区| 99re在线观看| 欧美在线制服丝袜| 国产精品嫩草99av在线| 大片免费在线看视频| 国产精品综合久久久久久| 在线视频欧美区| 亚洲视频中文| 老司机精品视频在线观看6| 精品一区二区三区国产| 日韩一区二区在线看| 日韩电影在线观看一区| 国产99在线| 日韩美女爱爱视频| 久久精品国产视频| 欧美国产欧美综合| 国产欧美日韩影院| 麻豆app在线观看| 久久久久天天天天| 欧美精品一区二区久久婷婷| 老汉av免费一区二区三区| 经典三级一区二区| 50路60路老熟妇啪啪| 欧美一区二区三区艳史| 精品日韩美女的视频高清| 亚洲国产精品第一区二区| 成人福利网站| 丁香花在线影院观看在线播放| 欧美精品日韩www.p站| 亚洲精品中文在线观看| 亚洲人metart人体| 色屁屁www国产馆在线观看| 国产精品va在线观看无码| 欧美黄色小视频| 午夜精品aaa| 美女视频一区免费观看| 人人视频精品| 超级污的网站| 国产精品国产三级国产专区53 | 亚洲国产精品99久久久久久久久 | 国产精品多人| 欧美久久一级| 无码专区aaaaaa免费视频| 欧美成人精品一区| 亚洲精品高清在线观看| 日韩午夜在线| 四虎国产精品免费久久5151| 国产网站免费观看| 欧美激情一区二区三区在线视频| 国产一区二区三区久久精品| 亚洲三级在线播放| 男人的天堂亚洲| 国产精品久久久久久久久久久久久久久 | 日本乱人伦aⅴ精品| 美女视频黄频大全不卡视频在线播放 | 精品国产一级| 羞羞视频在线免费看| 国产免费一区二区三区四在线播放 | 日韩视频一区二区三区在线播放| www.色综合.com| 亚洲欧洲日韩| 日韩一区二区三区四区五区| 日本又骚又刺激的视频在线观看| 日本特级黄色大片| 国产精品青草久久久久福利99| 亚洲国产精品悠悠久久琪琪| 亚洲欧美日韩国产另类专区| 麻豆一区二区在线| 水蜜桃精品av一区二区| 国产精品无码久久久久| 91社区在线| 先锋影音资源999| 中文字幕日韩精品久久| 国产精品一区二区3区| 中文字幕精品在线| 欧美视频一区二区在线观看| 亚洲国产精品成人久久综合一区 | 桥本有菜av在线| 欧美在线视频导航| 精品视频在线观看日韩| 亚洲国产精品久久艾草纯爱| 成人午夜激情视频| 日韩午夜精品| 亚洲综合福利| 成人精品国产亚洲| 国产秀色在线www免费观看| 米奇在线777| 91专区在线观看| 欧洲精品国产| 国产美女精品视频| 久久国产精品视频| 精品99一区二区三区| 欧美日韩国产激情| 国产欧美日本一区视频| 看国产成人h片视频| 亚洲欧美一区在线| 曰本一区二区三区视频| 青娱乐极品盛宴一区二区| 色婷婷av在线| 国产黄色片在线播放| 国内av免费| 噼里啪啦国语在线观看免费版高清版| 精品国产免费一区二区三区| 日本韩国欧美精品大片卡二| 精品国产一区二区三区久久久狼 | 一级黄色录像免费看| 成人在线精品视频| 97精品欧美一区二区三区| 亚洲欧美精品在线| 日韩亚洲电影在线| 在线一区二区三区四区五区| 一区二区三区四区中文字幕| 国产偷国产偷亚洲高清人白洁| 国产精品456| 免费视频最近日韩| 国产精品尤物| 亚洲黄色毛片| 国内综合精品午夜久久资源| 99久久精品国产亚洲精品 | 国产精品久久7| 国产精品久久久久久av下载红粉| 欧美成人精品激情在线观看 | 狠狠爱在线视频一区| 国产精品久久99| 久久久久久久久久看片| 国产成人综合亚洲91猫咪| 免费的国产精品| 久久久精品五月天| 亚洲国内精品| 亚洲午夜激情在线| 欧美1区免费| 国产一区清纯| 国产精品v日韩精品v欧美精品网站| 欧美一区二区性| 日韩精品免费| 五月婷婷六月综合| 91精品国产福利在线观看麻豆| 97视频精品| 亚洲综合色网| 国产一区二区中文| 国产日韩欧美一区| 另类av一区二区| 日韩高清不卡一区二区三区| 免播放器亚洲一区| 国产一区日韩二区欧美三区| 国产成人综合亚洲网站| av在线不卡网| 久久美女艺术照精彩视频福利播放 | 欧美特黄色片| 韩国理伦片久久电影网| 黄瓜视频成人app免费| 国产经典一区| 亚洲色图图片| 国产精品极品国产中出| 国产欧美日韩在线一区二区| 久久福利综合| 欧美日韩综合| 麻豆9191精品国产| 丝袜亚洲另类丝袜在线| 久久av中文字幕片| 91老师片黄在线观看| 亚洲欧洲另类国产综合| 午夜精品久久久久| 欧美日韩国产一区二区三区地区| 日韩视频国产视频| 在线观看不卡av| 国内精品久久久| 国产精品免费福利| 成人av片网址| 一区二区三视频| 男女猛烈激情xx00免费视频| 日本成人中文字幕在线| 香港日本韩国三级| 午夜老司机在线观看| 欧美久久天堂| 18国产精品| 香蕉国产精品| 久久狠狠亚洲综合| 国产精品入口麻豆原神| 色欧美88888久久久久久影院| 亚洲电影第1页| 久久久之久亚州精品露出|