国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

基于機器學習的磁盤故障預測

存儲 存儲軟件
RGF算法+遷移學習精確預測硬盤故障。《Predicting Disk Replacement towards Reliable Data Centers》由IBM研究院發表于數據挖掘頂會議KDD 2016。磁盤是當今數據中心中最常見的硬件設備,也是最易發生故障的設備。

 RGF算法+遷移學習精確預測硬盤故障。《Predicting Disk Replacement towards Reliable Data Centers》由IBM研究院發表于數據挖掘頂會議KDD 2016。磁盤是當今數據中心中最常見的硬件設備,也是最易發生故障的設備。盡管有如RAID的防御機制,系統的可用性和可靠性仍然經常嚴重沖擊。 本文采用RGF算法和遷移學習精確預測硬盤故障從而判斷硬盤是否應該更換。其方法對硬件設備的故障預測有借鑒意義。

互聯網迅速發展,網絡服務數量驟增, 大規模海量數據存儲系統是必不可少的支持。雖然新的存儲介質例如SSD,已經在讀性能等很多方面擁有了比磁盤更好的性能,但就目前來講,其高昂的花費使大部分數據中心難以負擔。因此,大型數據中心依然采用傳統的以磁盤為主的存儲系統。這樣做采購成本上雖然有了節省,但磁盤頻繁損壞導致的數據丟失給企業帶來的損失也是不可忽視的重大問題。

據美國63個數據中心組織進行的一項研究顯示,數據中心的停機費用在過去幾年中顯著增加,從2010年的5600美元/分鐘增加到2016年的8851美元/分鐘。以往基于磁盤SMART屬性建立的各種磁盤故障預測模型,雖然取得了一定的效果,但是其在SMART屬性選擇、準確性以及模型的復用性上存在不足之處。

因此,本文提出了一個自動、精確的磁盤故障預測的方法,判斷磁盤在接下來一段時間內需不需要替換。下面兩個圖展示的是有無替換預測的磁盤可用性示意圖。左圖代表的是傳統的磁盤異常檢測,磁盤狀態開始變差后才檢測到磁盤故障,這時的可用性已經降到了***才開始更換磁盤。右圖展示的是使用磁盤故障預測的情況,首先系統判斷磁盤的狀態即將要變差,然后工程師在磁盤可用性降低之前更換磁盤。通過這兩個圖的對比,我們可以看出提前預測磁盤故障可以降低故障對系統可用性的沖擊。

磁盤故障預測的挑戰

但是,磁盤故障預測,存在如下挑戰:

  • 不是所有的SMART屬性都與磁盤故障相關。因為缺乏SMART屬性對磁盤狀態指示的標準,所以需要從SMART屬性中選擇與一部分磁盤故障相關的屬性,作為故障預測模型的輸入。
  • 磁盤故障數據高度不平衡。隨著時間的推移,健康磁盤的SMART數據量一直在增加,但是只有一小部分磁盤(2%)被替換,即被替換的磁盤數據非常少。分類算法通常***限度地提升整體精度,少數類所包含的信息就會很有限,從而難以確定少數類數據的分布,即在其內部難以發現規律,進而造成少數類的識別率低。
  • 不同類型的磁盤SMART存在差異。SMART是特定于制造商的,它們的編碼和標準化在制造商之間差別很大,所以不能使用同一個預測性模型來判斷不同型號的磁盤。下面兩個圖展示的是不同類型磁盤的SMART數據差異,其中左圖表示的是溫度,右圖表示的是開機關機的周期,從兩個圖的對比可以看出,不同類型的磁盤SMART確實存在差異。

設計思想

本文分為如下五步來解決故障預測的挑戰:

  1. 選擇SMART屬性。使用突變點(changepoint)檢測的方法對SMART屬性分類,選擇與磁盤替換相關的SMART屬性。
  2. 生成時間序列。使用指數平滑來生成簡化但是信息豐富的時間序列。
  3. 解決數據不平衡性。通過欠抽樣(downsampling)選擇具有代表性的健康磁盤的數據,然后用這些數據來代表全部的健康磁盤,從而使健康磁盤與替換磁盤的比例達到平衡。
  4. 對磁盤狀態分類。RGF是一個分類算法,可以將磁盤的狀態分成0/1的狀態,如果當前時間序列被分成1狀態,則認為磁盤即將出現故障,需要更換磁盤。
  5. 遷移學習。考慮到同一廠商生產的不同磁盤模型之間也存在一定差異,本文使用了遷移學習的方法,從而利用某種磁盤上訓練的模型來預測同一廠商的其他磁盤的故障替換情況。

1、選擇SMART屬性

因為SMART數據是隨著時間的增長而生成的,所以文中是通過時間序列突變點(changepoint)檢測來確定SMART與磁盤替換的相關性。當被替換的磁盤SMART時間序列中某個SMART屬性發生突變,而且這個轉變是***性不可恢復的,那么可以認為這個屬性與磁盤替換是相關的。

下圖展示的是SMART_187_raw(無法糾正的錯誤)的折線圖,這是報告給操作系統的無法通過硬件ECC校正的錯誤。如果數據值不為零,就應該備份磁盤上的數據了。從圖中可以看出在第50天的時候,SMART_187_raw值突然增大,即第50天為突變點。

通過檢測每一個SMART屬性,本文得到了下表中展示的結果(只展示部分結果)。在表格中,SgtA和HitA分別表示希捷和日立的磁盤型號,Ratio表示磁盤替換前該屬性值出現突變的比例。我們可以看出有些SMART屬性確實與磁盤替換無關,而且對于不同型號的磁盤,與磁盤替換事件相關的SMART屬性是不相同的。

2、生成時間序列

經過***步的SMART屬性值的挑選,下一步需要做的是生成預測模型可以使用的時間序列。使用時間序列作為模型的數據是基于如下三點考慮的:

每天的數據都是不穩定的,可能某天的SMART數據缺失。

磁盤具有一定的自恢復性,不能根據某一天的數據來判定磁盤接下來一段時間的狀態。

如果只看某一天的數據,則無法提前一段時間來預測磁盤故障,也就無法留出充足的時間給工程師更換磁盤。

所以本文使用指數平滑的方法來生成時間序列,S_t=α·Y_t+(1-α)·S_(t-1)是指數平滑的公式,其中α是平滑參數,Y_t是之前t個數據的平滑值。α越接近1,平滑后的值越接近當前時間的數據值。指數平滑不舍棄過去的數據,而是僅給予逐漸減弱的影響程度,即隨著數據的遠離,賦予逐漸收斂為零的權數。

3、解決數據不平衡性

遇到不平衡數據時,以總體分類準確率為學習目標的傳統分類算法會過多地關注多數類,而使少數類樣本的分類性能下降。因為這些算法大多數建立在各類數據分布平衡的假設之下,以尋求數據總體分類準確率為***目標。而在磁盤故障預測的場景下,磁盤故障的數量是遠遠小于正常磁盤的。本文使用了欠抽樣(downsampling)的方式來平衡數據。

具體做法是這樣的,對健康磁盤的時間序列樣本做K-means聚類,聚類之后每一個類別中樣本都是相似的,然后選擇距離聚類中心最近的n個點作為健康磁盤樣本的抽樣結果。

4、對磁盤狀態分類

本文使用了RGF算法對磁盤狀態分類。RGF 算法是一個分類算法,它是GBDT(梯度提升決策樹)算法***的變種之一。針對 GBDT 每次迭代只優化新建樹以及過擬合的問題,RGF使用了正則化的全局優化貪心搜索改進算法:

  • 每次迭代直接對整個貪心森林進行學習
  • 新增決策樹后進行全局的參數優化
  • 引入顯式的針對決策樹的正則項來防止過擬合

文中對比了RGF與其他分類算法的分類結果,上表中的P、R、F分別表示準確率(precision)、召回率(recall)、F-分數(F-score)。從表中可以看出,RGF的效果是***的。

5、遷移學習

同一廠商生產的不同磁盤模型之間也是存在差異的。本文發現,不同磁盤模型之間具有相似的SMART屬性,但相同的SMART屬性之間的數據分布不同。因此,直接將訓練集磁盤模型上建立的預測模型用于同一廠商生產的其他磁盤模型的故障預測,不能達到***的預測效果。

首先我們來說明遷移學習中的兩個重要概念,域(domain)和任務(task)。如下圖所示。

域(domain):包括特征空間(feature space)X和邊緣概率分布(marginal probability distribution)P(x), x ∈X。例如,一組圖片中的所有可能顏色構成一個特征空間,而各種顏色出現的頻率則為邊緣概率分布。

任務(task):給定一個域,任務還包含兩個要素,標簽空間(label space)y和預測函數(predictive function)f(·)=P(y|x)。例如,一組圖片中可能出現的所有元素構成一個標簽空間,而通過預測函數可以得出某幅特定圖片中包含哪些元素。

同一廠商生產的不同磁盤模型之間具有一定的關聯性,但它們之間存在樣本選擇偏差(sample selection bias)。即不同種磁盤模型之間雖然具有大量的重疊特征,但源數據實例(帶標簽的訓練數據)和目標數據實例(無標簽的測試數據)的分布不同。因此,作者采用了基于實例的遷移學習方法來消除源數據和目標數據之間的樣本選擇偏差,從而將某種磁盤上訓練的模型應用于其他磁盤上。

具體的,對于兩種磁盤模型1和2,將帶標簽的磁盤1實例與無標簽的磁盤2實例放在一起。訓練一個分類函數,使f(x)表示一個磁盤屬于模型1或模型2的概率。利用分類函數f對帶標簽的訓練數據集進行重新采樣,從而消除樣本選擇偏差,使訓練集與測試集數據服從同一分布。此時,根據重新采樣的訓練集,利用前文所述的RGF算法訓練出函數,g(x)代表該類型磁盤的一個實例需要進行替換的概率。由于重新采樣的訓練集與測試集服從相同的數據分布,因此可將預測函數g直接應用于同一廠商生產的其他磁盤模型上(測試集)。

作者分別使用兩個廠商生產的磁盤的數據集SgtA和HitA訓練模型,并使用遷移學習的方法將兩種模型分別應用于同廠商的其他磁盤數據集SgtB和HitB上。上表分別展示了直接將模型 A應用于磁盤B上以及運用遷移學習方法將模型A應用于磁盤B的替換預測的準確率、召回率、F-分數。可以看出,應用遷移學習方法后,預測準確性得到了很大提高,從而大大減少了需要訓練的模型數量。

總結

本文介紹了一套自動、精確的磁盤故障預測方法,用于判斷磁盤在接下來一段時間內是否需要替換。通過選擇SMART屬性、生成時間序列、解決數據不平衡性等步驟,將磁盤故障預測轉化為對時間序列數據的分類問題。之后使用RGF算法對磁盤狀態進行分類,從而找出可能發生故障的磁盤。對于同一廠商生產的不同型號的磁盤,采用遷移學習的方法進行處理,在保證預測準確性的同時減少模型訓練開銷。***,文中采用不同廠商、多種類型的磁盤SMART數據驗證該方法,達到了較高的準確率和召回率。

責任編輯:武曉燕 來源: 智能運維前沿
相關推薦

2020-11-06 15:05:13

物聯網預測性維護安全

2016-12-28 15:19:22

大數據機器學習銷售預測

2022-06-09 09:14:31

機器學習PythonJava

2017-05-03 19:08:10

機器學習

2017-02-16 08:25:35

2017-09-06 16:40:51

機器學習Airbnb預測房價

2019-10-14 16:57:19

機器學習預測分析 區別

2017-07-25 12:09:10

機器學習預測性維護模型

2020-01-31 16:08:00

?機器學習數據技術

2022-02-21 16:05:26

機器學習優勢Python

2020-04-27 09:52:03

預測銷售機器學習ML

2024-11-04 08:14:48

2011-04-22 16:58:05

2020-02-27 14:47:11

人工智能機器學習故障檢測

2023-09-27 07:56:25

2024-06-06 08:00:00

2021-01-26 09:46:59

PythonStacking機器學習

2021-08-21 14:30:58

機器學習bilibili股價

2021-08-23 11:15:20

Python機器學習bilibili

2020-08-28 07:00:00

機器學習預測股市人工智能
點贊
收藏

51CTO技術棧公眾號

国产精品黄视频| 成人免费福利在线| av电影在线观看| 欧美国产乱子伦| 国产一区二区三区在线免费| 小嫩嫩精品导航| 国产欧美精品日韩精品| 天堂网av成人| 欧美亚州一区二区三区| 国内精品国产成人国产三级粉色| 久久中文字幕在线视频| 成人a免费视频| 国内揄拍国内精品久久| 国产一区二区日韩| 成人午夜剧场免费观看完整版| 成人av高清在线| 波多野结衣与黑人| 国产精品一卡二卡在线观看| 一区二区不卡在线| 久久se这里有精品| 亚洲午夜精品久久久中文影院av| 蜜臀av午夜一区二区三区| 免费观看一级特黄欧美大片| 激情小说亚洲色图| 日韩精品极品在线观看播放免费视频 | 成人黄色免费电影| 欧美激情一区三区| 色婷婷av一区二区三区软件 | 国产精品一区二区在线观看| 日韩成人综合网站| 福利电影一区二区三区| 久久视频免费在线| 高清免费成人av| av网站在线观看不卡| 欧美国产精品中文字幕| 国产性一级片| 欧洲一区在线观看| wwwwxxxx在线观看| 精品国产一区二区三区四区在线观看 | 自拍偷拍第1页| 日韩欧美在线一区| 国产女主播在线直播| 日韩欧美国产成人一区二区| 国产一二三在线| 精品国内自产拍在线观看| 理论片一区二区在线| 97人人模人人爽人人喊38tv| 首页综合国产亚洲丝袜| 亚洲色图欧美在线| www.91在线| 亚洲人高潮女人毛茸茸| 中文字幕区一区二区三| 91亚洲精品久久久久久久久久久久| 国产精品一页| 曰韩不卡视频| 国产精品国产三级国产专播品爱网| 中文字幕在线看| 精品久久久久久无| 6080成人| 国产欧美日韩伦理| 国产精品99久久久久久有的能看| free亚洲| 日韩午夜在线观看视频| 日韩一级特黄| 91系列在线观看| 国产高清久久久| 成视频年人免费看黄网站| 91精品国产色综合久久ai换脸| 欧洲成人一区| 国产成人久久精品| 经典一区二区三区| 成人丁香基地| 日韩三级视频中文字幕| 亚洲一区二区电影| 成人91免费视频| eeuss国产一区二区三区 | 国产欧美日韩三级| 亚洲天天影视| 久久久女女女女999久久| 九色在线观看| 色一区av在线| jizz性欧美23| 国产亚洲欧美另类一区二区三区| 国产精品一级黄| 国产午夜久久av| 韩日精品一区二区| 偷拍自拍在线看| 波多野结衣av在线播放| 欧美顶级毛片在线播放| 蜜桃av久久久亚洲精品| 久久久久久久精| 性开放的欧美大片| 国产日韩在线亚洲字幕中文| 久久久久久久久久久电影| 国产视频二区在线观看| 亚洲精品视频播放| 欧美伊人影院| 亚在线播放中文视频| 亚洲午夜精品视频| 国内精品久久久久影院色| 激情综合色综合啪啪开心| 成人网ww555视频免费看| 国内成人精品视频| 99re成人在线| av片哪里在线观看| 亚洲最大的成人网| 国产麻豆综合| 亚洲国产三级网| 久久1电影院| 尤物视频免费在线观看| 久草在线资源网站| 97在线免费视频观看| 色天天综合久久久久综合片| 在线播放一区二区精品视频| www.亚洲一区二区| 51精品久久久久久久蜜臀| 女人丝袜激情亚洲| 成人在色线视频在线观看免费大全| 精品国产乱码久久久久久108| 国产精品久久久久aaaa樱花| 91tv亚洲精品香蕉国产一区| 成人免费观看cn| 亚洲天堂第一页| 中文字幕有码在线视频| 在线观看日韩国产| 亚洲无线看天堂av| 91嫩草在线| 疯狂蹂躏欧美一区二区精品| 国产精品美女久久久久久不卡| 一级在线免费视频| 欧美xxxx18国产| 91在线国产福利| 久久av日韩| 国产aaa免费视频| 精品久久久久久久人人人人传媒 | 91成人午夜| 国产二区视频在线播放| 日韩在线观看免费全| 国产一区在线视频| 亚洲第一av| 青青青在线视频播放| 久久亚洲电影天堂| 国产精品免费av| 国产精品一区二区三区av麻| 久草在线新视觉| 91久久精品一区二区别| 在线免费av一区| 伊人久久大香线蕉综合热线| 国产中文字幕在线免费观看| www.亚洲免费视频| 中文字幕欧美激情| 成人久久久久| 日本综合在线| 成人午夜免费在线视频| 久久影视免费观看| 国产精品乱子久久久久| 久久在线电影| 成码无人av片在线观看网站| 熟妇熟女乱妇乱女网站| 超碰精品一区二区三区乱码| 自拍偷拍亚洲综合| 欧美欧美天天天天操| 污污片在线免费视频| 欧美交换配乱吟粗大25p| 欧美成人剧情片在线观看| 一区二区三区四区在线| 99精品免费视频| 成人综合网站| 免费男女羞羞的视频网站主页在线观看| av在线亚洲男人的天堂| 亚洲国产天堂久久综合| 大白屁股一区二区视频| 亚洲国产精品嫩草影院久久av| 青青国产在线| 日本国产中文字幕| 亲子乱一区二区三区电影| 欧美日韩中文字幕一区二区| 国产一区二区精品久久99| 图片婷婷一区| 1stkiss在线漫画| 少妇高清精品毛片在线视频| 成人激情视频在线播放| 欧美不卡一二三| 中日韩免费视频中文字幕| 黄色精品网站| 日本黄色成人| 成年人视频网站在线| 欧美黄色免费影院| 国产美女精品在线观看| 久久夜色精品国产亚洲aⅴ| 欧美亚洲一区三区| 国产亚洲欧美在线| 国产亚洲在线观看| 成人高潮a毛片免费观看网站| 国产最新视频在线| 成人一级片网站| 欧洲精品一区色| 国产精品视频xxxx| 久久精品美女视频网站| 91精品国产一区二区三区|