国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

頂尖科學(xué)家如何玩轉(zhuǎn)AI?DeepSpeed4Science:利用先進(jìn)的AI系統(tǒng)優(yōu)化技術(shù)實現(xiàn)科學(xué)發(fā)現(xiàn)

人工智能 新聞
AI助力科學(xué)發(fā)現(xiàn),DeepSpeed4Science計劃引領(lǐng)新時代技術(shù)突破!

在接下來的十年中,深度學(xué)習(xí)可能會徹底改變自然科學(xué),增強(qiáng)我們對自然現(xiàn)象進(jìn)行建模和預(yù)測的能力。

這可能預(yù)示著科學(xué)探索的新時代,為從藥物開發(fā)到可再生能源的各個領(lǐng)域帶來重大進(jìn)展。

對此,微軟DeepSpeed團(tuán)隊啟動了一個名為DeepSpeed4Science的新計劃,旨在通過AI系統(tǒng)技術(shù)創(chuàng)新幫助領(lǐng)域?qū)<医怄i當(dāng)今最大的科學(xué)之謎。

DeepSpeed系統(tǒng)是由微軟開發(fā)的業(yè)界領(lǐng)先的開源AI系統(tǒng)框架,它為各種AI硬件上的深度學(xué)習(xí)訓(xùn)練和推理提供了前所未有的規(guī)模和速度。

圖1:DeepSpeed4Science方法概述:專為加速科學(xué)發(fā)現(xiàn)和應(yīng)對其復(fù)雜性而量身定制的AI系統(tǒng)技術(shù)開發(fā)。

圖1展示了我們對DeepSpeed4Science這一新計劃的基本方法。

通過利用DeepSpeed當(dāng)前的技術(shù)方案(訓(xùn)練、推理和壓縮)作為基礎(chǔ)技術(shù)推動器,DeepSpeed4Science將創(chuàng)建一套專為加速科學(xué)發(fā)現(xiàn)而量身定制的AI系統(tǒng)技術(shù),以應(yīng)對其獨特的復(fù)雜性,超越用于加速通用大型語言模型(LLMs)的常見技術(shù)方法。

在這篇博客中,我們展示了DeepSpeed4Science如何幫助解決結(jié)構(gòu)生物學(xué)研究中的兩個關(guān)鍵AI系統(tǒng)挑戰(zhàn):

(1)解決了以Evoformer為中心的蛋白質(zhì)結(jié)構(gòu)預(yù)測模型中的內(nèi)存爆炸問題,以及

(2)為更好地理解引發(fā)大流行的疾病的進(jìn)化提供AI模型長序列支持。

我們的初期主要合作者

DeepSpeed4Science的新系統(tǒng)技術(shù)可以用于很多推動科學(xué)邊界的標(biāo)志性模型,賦能AI驅(qū)動的科學(xué)發(fā)現(xiàn)。

目前,DeepSpeed4Science很榮幸地支持來自微軟研究院AI4Science、微軟WebXT/Bing、美國能源部國家實驗室和多所大學(xué)的幾個關(guān)鍵科學(xué)模型。

內(nèi)部合作伙伴

科學(xué)基礎(chǔ)模型(Scientific Foundation Model,SFM),微軟研究院AI4Science


圖片

圖2:科學(xué)基礎(chǔ)模型(Scientific Foundation Model,SFM)及其當(dāng)前探索:Distributional Graphormer

科學(xué)基礎(chǔ)模型(SFM)旨在創(chuàng)建一個統(tǒng)一的大規(guī)模基礎(chǔ)模型,以支持自然科學(xué)發(fā)現(xiàn),支持多種輸入、多個科學(xué)領(lǐng)域(例如,藥物、材料、生物學(xué)、健康等)和計算任務(wù)。

DeepSpeed4Science合作伙伴關(guān)系將為SFM團(tuán)隊提供新的訓(xùn)練和推理技術(shù),以支持他們的新生成AI方法(例如Distributional Graphormer)這樣的項目進(jìn)行持續(xù)研究。

ClimaX,微軟研究院AI4Science

圖3:ClimaX是第一個設(shè)計用于執(zhí)行各種天氣和氣候建模任務(wù)的基礎(chǔ)模型

我們的氣候正在發(fā)生變化,導(dǎo)致極端天氣事件的頻率增加。為了減輕負(fù)面影響,預(yù)測這些事件將發(fā)生的地方變得越來越重要。

ClimaX是第一個設(shè)計用于執(zhí)行各種天氣和氣候建模任務(wù)的基礎(chǔ)模型。它可以吸收許多具有不同變量和分辨率的數(shù)據(jù)集以提高天氣預(yù)報的準(zhǔn)確性。

DeepSpeed4Science正在為ClimaX創(chuàng)建新的系統(tǒng)支持和加速策略,以高效地預(yù)訓(xùn)練/微調(diào)更大的基礎(chǔ)模型,同時處理非常大的高分辨率圖像數(shù)據(jù)(例如,數(shù)十到數(shù)百PB)和長序列。

AI驅(qū)動的第一性原理分子動力學(xué)(AI Powered Ab Initio Molecular Dynamics,AI2MD),微軟研究院AI4Science

圖4:一百萬步的分子動力學(xué)模擬:RBD-蛋白(RBD-protein)與蛋白抑制劑(protein inhibitor)相互作用。

這個項目模擬了使用AI驅(qū)動的力場模型進(jìn)行近似第一性原理計算精度的大型(百萬原子)分子系統(tǒng)的動態(tài)模擬,同時保持了經(jīng)典分子動力學(xué)的效率和可擴(kuò)展性。這些模擬足夠高效,可以生成足夠長的軌跡來觀察化學(xué)上有意義的事件。

通常,這個過程需要數(shù)百萬甚至數(shù)十億的推理步驟。這對優(yōu)化圖神經(jīng)網(wǎng)絡(luò)(GNN)+ LLM模型的推理速度提出了重大挑戰(zhàn),DeepSpeed4Science將為此提供新的加速策略。

微軟天氣,微軟WebXT/Bing

圖5:微軟降水預(yù)報(每4分鐘一次對接下來4小時進(jìn)行預(yù)測)。

微軟天氣提供精確的天氣信息,幫助用戶為他們的生活方式、健康、工作和活動做出更好的決策——包括每小時多次更新的準(zhǔn)確的10天全球天氣預(yù)報。

此前,微軟天氣受益于DeepSpeed技術(shù),加速了他們的多GPU訓(xùn)練環(huán)境。

現(xiàn)在,DeepSpeed4Science正在與微軟WebXT天氣預(yù)報團(tuán)隊合作,進(jìn)一步增強(qiáng)微軟天氣預(yù)報服務(wù)的最新功能和改進(jìn)。

外部合作者

DeepSpeed4Science的旅程始于兩個開創(chuàng)性的基于LLM的結(jié)構(gòu)生物學(xué)研究AI模型:來自哥倫比亞大學(xué)的OpenFold,一個開源的高保真蛋白質(zhì)結(jié)構(gòu)預(yù)測模型;以及來自阿貢國家實驗室的GenSLMs,一個獲得ACM戈登貝爾獎的用于學(xué)習(xí)SARS-CoV-2(COVID-19)基因組的進(jìn)化的語言模型。

作為此次發(fā)布的特色展示,它們代表了當(dāng)今AI驅(qū)動的結(jié)構(gòu)生物學(xué)研究面臨的兩個常見AI系統(tǒng)挑戰(zhàn)。我們將在下一節(jié)中討論DeepSpeed4Science如何賦能這些科學(xué)研究。

此外,DeepSpeed4Science最近擴(kuò)大了其范圍,以支持更多樣的科學(xué)模型。

例如,在我們與阿貢國家實驗室合作訓(xùn)練Aurora Exascale系統(tǒng)上的萬億參數(shù)科學(xué)模型的工作中,DeepSpeed4Science技術(shù)將幫助他們達(dá)到這一關(guān)鍵任務(wù)所需的性能要求和可擴(kuò)展性。

此外,通過與橡樹嶺國家實驗室和國家癌癥研究所(NCI)合作進(jìn)行癌癥監(jiān)測,DeepSpeed4Science將幫助從非結(jié)構(gòu)化的臨床文本中高保真地提取和分類信息,以供MOSSAIC項目使用。

Brookhaven國家實驗室還將采用DeepSpeed4Science技術(shù),支持使用LLMs開發(fā)大型數(shù)字雙胞胎模型,以便為清潔能源研究產(chǎn)生更真實的模擬數(shù)據(jù)。您可以在deepspeed4science.ai上找到有關(guān)我們外部合作者及其科學(xué)任務(wù)的更多詳細(xì)信息。

合作展示

展示(I):DeepSpeed4Science通過DS4Sci_EvoformerAttention消除以Evoformer為中心的結(jié)構(gòu)生物學(xué)模型的內(nèi)存爆炸問題

圖片 

圖片

圖6:在訓(xùn)練過程中OpenFold對PDB鏈7B3A_A的預(yù)測

OpenFold是DeepMind的AlphaFold2的開源社區(qū)再現(xiàn),使其可以在新數(shù)據(jù)集上訓(xùn)練或微調(diào)AlphaFold2。

研究人員已經(jīng)使用它從頭開始重新訓(xùn)練AlphaFold2,生成新的模型參數(shù)集,研究AlphaFold2的早期訓(xùn)練階段(圖6),并開發(fā)新的蛋白質(zhì)折疊系統(tǒng)。

圖7:在OpenFold中,對多序列比對(MSA)Attention內(nèi)核(包含偏差)變體的訓(xùn)練峰值內(nèi)存需求。(左)使用在AlphaFold2中的EvoformerAttention的原始OpenFold實現(xiàn)。對于這些類型的蛋白質(zhì)結(jié)構(gòu)預(yù)測模型,在訓(xùn)練/推理中的內(nèi)存爆炸問題是常見的。最先進(jìn)的FlashAttention無法有效支持這樣的Attention變體。(右)DeepSpeed4Science的一種新解決方案DS4Sci_EvoformerAttention在不影響模型品質(zhì)的條件下顯著地減少了OpenFold的訓(xùn)練峰值內(nèi)存需求(最多13倍)。

盡管OpenFold有使用最先進(jìn)的系統(tǒng)技術(shù)進(jìn)行性能和內(nèi)存優(yōu)化,但從頭開始訓(xùn)練AlphaFold2仍然在計算上很昂貴。目前階段的模型參數(shù)很小,只有9300萬個參數(shù),但它包含了幾個需要非常大的中間內(nèi)存的特殊Attention變體。

在標(biāo)準(zhǔn)AlphaFold2訓(xùn)練的「微調(diào)」階段,只是這些變體中的其中一個在半精度下就生成了超過12GB的張量,使其峰值內(nèi)存要求遠(yuǎn)遠(yuǎn)超過了相同大小的語言模型。

即使使用像activation checkpointing和DeepSpeed ZeRO優(yōu)化這樣的技術(shù),這種內(nèi)存爆炸問題仍然嚴(yán)重限制了可訓(xùn)練模型的序列長度和MSA深度。

此外,近似策略可能會顯著影響模型的準(zhǔn)確性和收斂性,同時仍然導(dǎo)致內(nèi)存爆炸,如圖7左側(cè)(橙色)所示。

為了應(yīng)對結(jié)構(gòu)生物學(xué)研究(例如,蛋白質(zhì)結(jié)構(gòu)預(yù)測和平衡分布預(yù)測)中的這一常見系統(tǒng)挑戰(zhàn),DeepSpeed4Science通過為這類科學(xué)模型中廣泛出現(xiàn)的注意力變體(即EvoformerAttention)設(shè)計定制的精確注意力內(nèi)核來解決這一內(nèi)存效率問題。

具體來說,我們設(shè)計了一套由復(fù)雜的融合/矩陣分塊策略和動態(tài)內(nèi)存減少方法而組成的高內(nèi)存效率DS4Sci_EvoformerAttention內(nèi)核,作為高質(zhì)量機(jī)器學(xué)習(xí)模塊供更廣泛的生物學(xué)研究社區(qū)使用。

通過整合到OpenFold中,這些定制內(nèi)核在訓(xùn)練期間提供了顯著的加速,并顯著減少了模型的訓(xùn)練和推理的峰值內(nèi)存需求。

這使得OpenFold可以用更大、更復(fù)雜的模型,使用更長的序列在更廣泛的硬件上進(jìn)行實驗。關(guān)于這項技術(shù)的詳細(xì)信息可以在這里找到。

展示(II):DeepSpeed4Science通過系統(tǒng)和算法方法為基因組基礎(chǔ)模型(例如,GenSLMs)提供長序列支持

圖8:GenSLMs:獲2022年ACM 戈登貝爾獎的COVID基因組模型(基于GPT-NeoX的25B/33B模型)。它用于學(xué)習(xí)描述SARS-CoV-2基因組生物學(xué)意義的潛在空間。這個GIF展示了一個重要的蛋白質(zhì)家族蘋果酸脫氫酶(malate dehydrogenase)的根據(jù)重要特征(如序列長度和GC含量(核酸鳥嘌呤和胞嘧啶的含量與腺嘌呤和胸腺嘧啶的比率。它測量DNA鏈抵抗熱的能力))著色的潛在空間的投影。

GenSLMs,一個來自阿貢國家實驗室的2022年ACM 戈登貝爾獎獲獎的基因組模型,可以通過大型語言模型(LLMs)的基因組數(shù)據(jù)訓(xùn)練來學(xué)習(xí)SARS-CoV-2(COVID-19)基因組的進(jìn)化。它旨在改變?nèi)绾巫R別和分類引發(fā)大流行的病毒(特別是SARS-CoV-2)的新變種。

GenSLMs代表了第一批可以泛化到其他預(yù)測任務(wù)的基因組基礎(chǔ)模型。對潛在空間的良好理解可以幫助GenSLMs處理超出僅僅是病毒序列的新領(lǐng)域,并擴(kuò)展它們模擬細(xì)菌病原體甚至真核生物的能力(例如,理解功能、途徑成員資格和進(jìn)化關(guān)系等事物)。

為了實現(xiàn)這一科學(xué)目標(biāo),GenSLMs和類似的模型需要非常長的序列支持用于訓(xùn)練和推理,這超出了像FlashAttention這樣的通用LLM的長序列策略。

通過DeepSpeed4Science的新設(shè)計,科學(xué)家現(xiàn)在可以構(gòu)建和訓(xùn)練具有顯著更長的上下文窗口的模型,允許他們探索以前無法訪問的關(guān)系。

圖9:由不同框架在不同規(guī)模下支持的兩個GenSLMs模型的最大序列長度。使用NVIDIA DGX,每個節(jié)點有八個40G A100 GPU

具體在系統(tǒng)層面,我們發(fā)布了包括長序列支持和其他新優(yōu)化的最新的Megatron-DeepSpeed框架。

科學(xué)家現(xiàn)在可以通過我們新添加的內(nèi)存優(yōu)化技術(shù)(如注意力掩碼異步處理和位置碼分割)、張量并行、流水線并行、序列并行、基于ZeRO的數(shù)據(jù)并行和模型狀態(tài)異步處理等技術(shù)的協(xié)同組合,用更長的序列訓(xùn)練他們的GenSLMs等大型科學(xué)模型。

圖9展示了我們的新版本使GenSLMs的25B和33B模型的最長序列長度分別比之前的Megatron-DeepSpeed版本增加了12倍和14倍。

在支持的序列長度方面,這個新Megatron-DeepSpeed框架也顯著地超過了NVIDIA的Megatron-LM(對于25B和33B模型分別高達(dá)9.8倍和9.1倍)。

例如,阿貢實驗室團(tuán)隊的GenSLMs 25B模型在64個GPU上的原始序列長度為42K,而現(xiàn)在可以用512K的核苷酸序列進(jìn)行訓(xùn)練。這在不損失準(zhǔn)確性的條件下大大提高了模型質(zhì)量和科學(xué)發(fā)現(xiàn)的范圍。

對于那些更喜歡相對位置編碼技術(shù)這樣的算法策略的領(lǐng)域科學(xué)家,這個新版本也進(jìn)行了集成。

轉(zhuǎn)載自微軟DeepSpeed組官方知乎賬號:

zhihu.com/people/deepspeed

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-05-23 09:34:16

科學(xué)家AI

2023-05-04 12:35:39

AI科學(xué)

2022-11-03 14:13:24

騰訊科學(xué)家

2012-12-06 15:36:55

CIO

2018-05-04 11:30:22

2023-06-21 09:15:30

AI 技術(shù)神經(jīng)網(wǎng)絡(luò)

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2020-03-04 07:00:00

人工智能AI

2025-05-14 09:03:00

2023-10-10 13:50:00

AI研究

2024-06-05 15:02:59

生成式人工智能機(jī)器學(xué)習(xí)人工智能

2023-12-18 15:54:42

AI 模型

2020-04-10 11:58:56

AI咨詢數(shù)據(jù)科學(xué)

2020-12-14 10:24:25

人工智能

2018-02-28 15:03:03

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析職業(yè)

2024-08-21 17:12:28

數(shù)據(jù)訓(xùn)練

2025-11-07 08:40:54

2017-08-18 08:54:44

炭疽人工智能AI
點贊
收藏

51CTO技術(shù)棧公眾號

美女一区二区在线观看| 日本成人免费网站| 日韩欧美视频| 99久久国产宗和精品1上映| 亚洲成人一区二区| 亚洲深夜福利在线观看| 国产男女无遮挡| 亚洲精品国产精品国自产观看浪潮| 精品久久久中文字幕| 成人午夜激情av| 亚洲视频axxx| 久久国产婷婷国产香蕉| 黄页在线播放| 欧美成人午夜影院| 成人精品免费视频| 国产成人免费9x9x人网站视频| 欧美性色黄大片人与善| 欧美日精品一区视频| 亚洲成人中文| 毛片网站在线观看| 免费观看成人高| 91精品在线一区二区| 成人mm视频在线观看| 久久久国产欧美| 97国产精品视频人人做人人爱| 亚洲欧洲制服丝袜| 日韩有码av| 国产素人视频在线观看| 少妇高潮流白浆| 色噜噜狠狠色综合网图区| 成人高清免费观看| 成人情趣视频网站| 伊人精品影院| 青青在线视频观看| 国产精品女主播| 欧美成人激情免费网| 国产色产综合产在线视频| 高清欧美性猛交xxxx黑人猛| 91嫩草在线播放| 国产麻豆乱码精品一区二区三区| 色综合久久88色综合天天免费| 欧美一区二区三区高清视频| xxx.xxx欧美| 一本免费视频| 国产成人在线小视频| 亚洲欧洲偷拍精品| 91久色porny| 午夜电影亚洲| 欧美aaaaaaaa| 99久久精品免费观看国产| 亚洲在线第一页| 亚洲午夜国产成人av电影男同| 狠狠久久五月精品中文字幕| 中文字幕一区二区av| 天堂√8在线中文| 五月综合网站| 日产精品久久久久久久蜜臀| 国产精品大全| 国产精品男女猛烈高潮激情| 精品成人私密视频| 精品一区二区三区在线播放 | 国产九色精品| 日本精品视频在线| 伊人久久综合97精品| 制服丝袜中文字幕亚洲| 偷窥少妇高潮呻吟av久久免费| 久久99精品久久久久久久久久久久| 成人91在线| 成人羞羞动漫| 日韩电影免费观看高清完整版在线观看| 伊人春色在线观看| 日本在线免费中文字幕| 欧美成人免费在线观看视频| 欧美自拍视频在线观看| 91在线网址| 欧美黄网站在线观看| 国产狼人综合免费视频| 日韩在线高清视频| 欧美精品一二三| 亚洲国产精品激情在线观看| 亚洲精品国产首次亮相| 婷婷综合电影| 69av成人| 九九精品调教| 8x8ⅹ拨牐拨牐拨牐在线观看| 青青青在线播放| 国产成人三级视频| 人妻少妇精品无码专区二区| 国产精品久久久对白| 96成人在线视频| 国产精品扒开腿爽爽爽视频 | **爰片久久毛片| 日日夜夜精品| 日本一区二区三区视频在线看| 在线黄色网页| 搜成人激情视频| 国产麻豆精品久久| 亚洲激情中文| 91久久夜色精品国产按摩| 国产一区二区在线| 中文亚洲免费| 久久久一区二区三区捆绑**| 91免费观看视频在线| 亚洲欧美欧美一区二区三区| 在线观看视频一区二区| 中文字幕一区二区三中文字幕| 欧美午夜女人视频在线| 亚洲国产又黄又爽女人高潮的| 亚洲乱码中文字幕| 欧美v国产在线一区二区三区| 久久久精品在线| 欧美激情第99页| 波多野结衣精品久久| 国产精品久久久对白| 视频一区在线免费观看| 成人一级片网站| 国产黄色片在线观看| 伊人电影在线观看| 丁香桃色午夜亚洲一区二区三区| 国内精品久久久久久久| 久久久久久久久久久免费 | 欧美激情精品久久久久久大尺度 | 精品国产一区二区三区久久久蜜臀| 亚洲网址在线观看| 国产精品草草| 久久久久88色偷偷免费| 色视频成人在线观看免| 久久精品国产亚洲一区二区| 日韩在线观看免费网站 | 丝袜美腿一区二区三区| 中文av字幕一区| 亚洲毛片在线看| 成人性生交xxxxx网站| 中文字幕在线中文| 国产福利片在线| 搜成人激情视频| 成人在线免费小视频| 在线欧美三区| 中文字幕免费不卡| 欧美午夜女人视频在线| 亚洲全黄一级网站| αv一区二区三区| 欧美日韩精品免费观看| 色噜噜狠狠一区二区三区| 成人av电影观看| 久久影视三级福利片| 国内精品视频一区二区三区八戒 | 黄色三级高清在线播放| 搞黄网站在线看| 这里只有精品在线| 日韩欧美国产高清91| 北条麻妃在线一区二区| 草莓视频丝瓜在线观看丝瓜18| 欧美精品久久天天躁| 精品国偷自产在线视频| 亚洲综合第一页| 成人午夜影视| 第九色区aⅴ天堂久久香| 久久久一区二区| 色爱av美腿丝袜综合粉嫩av| 国产一区二区三区在线免费| 97成人资源| 日韩精品欧美| 怡红院av一区二区三区| 国产精品欧美一区二区| 亚州福利视频| 欧美极品中文字幕| 日本韩国一区二区三区| 久久亚洲国产精品日日av夜夜| 韩日在线视频| 国产亚洲精品bv在线观看| 亚洲国产私拍精品国模在线观看| 亚洲精品一区二区三区av| hd国产人妖ts另类视频| 91麻豆免费看| 久久久久久91| 日韩福利一区二区| 久久精品国产77777蜜臀| 亚洲色图激情小说| 成人av小说网| 婷婷色综合网| 欧美亚洲国产一卡| 最新国产精品久久| 任你躁在线精品免费| 欧美午夜精品久久久| 国产高清精品在线观看| 欧美激情国产在线| 日韩av在线导航| 黄色国产网站| 蜜桃久久精品一区二区| 91精品国产高清| 国产成人午夜| 久久久久99精品国产片| 97人人香蕉| 成人福利一区| 欧美日韩另类国产亚洲欧美一级| 成人在线免费观看一区| 久久九九热re6这里有精品| 日韩精品在线第一页| chinese偷拍一区二区三区|