国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

4000萬蛋白結(jié)構(gòu)訓練,西湖大學開發(fā)基于結(jié)構(gòu)詞表的蛋白質(zhì)通用大模型,已開源

人工智能 開源
本文利用Foldseek將蛋白質(zhì)進行編碼,生成了一維的3Di結(jié)構(gòu)序列(使用了Foldseek的結(jié)構(gòu)詞表,每種3Di token代表不同的局部結(jié)構(gòu)),這樣的結(jié)構(gòu)序列與氨基酸序列是等長的。

蛋白質(zhì)結(jié)構(gòu)相比于序列往往被認為更加具有信息量,因為其直接決定了蛋白質(zhì)的功能。而隨著AlphaFold2帶來的巨大突破,大量的預測結(jié)構(gòu)被發(fā)布出來供人研究使用。如何利用這些蛋白質(zhì)結(jié)構(gòu)來訓練強大且通用的表征模型是一個值得研究的方向。

西湖大學的研究人員利用Foldseek來處理蛋白質(zhì)結(jié)構(gòu),將其編碼成一維的離散token,并與傳統(tǒng)的氨基酸進行結(jié)合,形成了結(jié)構(gòu)感知詞表(Structure-aware Vocabulary),以此將結(jié)構(gòu)信息嵌入到模型輸入中,增強模型的表征能力。

圖片

在預訓練上,論文使用了目前最多的蛋白質(zhì)結(jié)構(gòu)(identity過濾后4000萬),在64張A100上訓練了3個月,最終開源了具備650M參數(shù)量的模型SaProt(同時包括了35M的版本)。實驗結(jié)果表明SaProt各種蛋白質(zhì)任務上都要好于之前的序列和結(jié)構(gòu)模型。

研究《SaProt: Protein Language Modeling with Structure-aware Vocabulary》的預印版本,于 2024 年 3 月 21 日發(fā)布在 bioRxiv 預印平臺。

圖片

論文鏈接:https://www.biorxiv.org/content/10.1101/2023.10.01.560349v4

github鏈接:https://github.com/westlake-repl/SaProt

方法

本文利用Foldseek將蛋白質(zhì)進行編碼,生成了一維的3Di結(jié)構(gòu)序列(使用了Foldseek的結(jié)構(gòu)詞表,每種3Di token代表不同的局部結(jié)構(gòu)),這樣的結(jié)構(gòu)序列與氨基酸序列是等長的。

因此本文使用了一種簡單而有效的結(jié)構(gòu)嵌入方式:將結(jié)構(gòu)詞表和氨基酸詞表計算笛卡爾積(即兩兩組合),形成新的結(jié)構(gòu)感知詞表。這樣對于蛋白質(zhì)的每個位點,其氨基酸類型和對應的局部結(jié)構(gòu)都能組合成新詞表中的某個元素,從而讓模型同時考慮到蛋白質(zhì)的序列與結(jié)構(gòu)信息。

本文使用Bert架構(gòu)進行掩碼語言建模(Masked Language Modeling )預訓練(關(guān)于訓練的更多細節(jié)可參考原論文)。

圖片

圖:結(jié)構(gòu)感知詞表

實驗

方法對比

一個可能令人疑惑的問題就是為什么需要這樣編碼結(jié)構(gòu)?論文展示了使用不同的結(jié)構(gòu)編碼方式進行預訓練的結(jié)果圖:

圖片

圖:不同結(jié)構(gòu)模型訓練的loss曲線圖

圖左和圖中是兩種經(jīng)典的蛋白質(zhì)結(jié)構(gòu)建模方式,即將結(jié)構(gòu)信息編碼成bias后添加到transformer的attention map中(如Evoformer,Uni-Mol),或者使用圖神經(jīng)網(wǎng)絡的方式建模蛋白質(zhì)的空間關(guān)系(如MIF,GearNet等)。

然而從loss圖中可以發(fā)現(xiàn),當上述兩種建模方式在AF2結(jié)構(gòu)上使用MLM的訓練目標進行預訓練時,模型會非常迅速地過擬合(表現(xiàn)為在AF2預測結(jié)構(gòu)上預測loss非常低,但在PDB真實結(jié)構(gòu)上loss停滯甚至上升)。

作者推測這是由于AF2預測出來的蛋白質(zhì)結(jié)構(gòu)帶有一些隱藏的模式(patterns),由于前兩種方式是直接對蛋白質(zhì)的三維坐標進行建模,這些隱藏的pattern可能很輕易地就被模型識別出來,從而造成了信息泄露的問題,讓模型無需真正學習到蛋白質(zhì)的進化信息就能輕松地完成訓練目標。

而結(jié)構(gòu)感知詞表通過將蛋白質(zhì)結(jié)構(gòu)編碼成一維的結(jié)構(gòu)序列,在盡可能保留結(jié)構(gòu)模式的情況下忽略了精細的坐標數(shù)值,因此模型能夠有效地利用結(jié)構(gòu)信息而不受到隱藏pattern的影響。

Zero-shot測試

作者在蛋白質(zhì)突變數(shù)據(jù)集(ProteinGym)上和真實人類臨床疾病數(shù)據(jù)集(ClinVar)上測試了SaProt的zero-shot能力,結(jié)果如下:

圖片

圖:Zero-shot實驗結(jié)果

SaProt在兩個數(shù)據(jù)集上都超越了以往的所有結(jié)構(gòu)和序列模型,證明了其在zero-shot預測突變上具備優(yōu)異的能力。

監(jiān)督微調(diào)測試

本文還涵蓋了各種下游任務來測試模型表現(xiàn),結(jié)果如下:

圖片

圖:下游任務fine-tune結(jié)果

SaProt在各個下游任務上都超越了以往的序列和結(jié)構(gòu)模型,展示出了其強大且通用的表征能力。

結(jié)構(gòu)信息測試

SaProt在4000萬的蛋白質(zhì)結(jié)構(gòu)上進行訓練,獲得了強大的表征能力。一個可能的疑問是如何確定SaProt學到了更多的結(jié)構(gòu)信息而不是模型被訓練得更好?

論文對SaProt和ESM-2在殘基接觸預測任務(Contact Prediction Task)上進行了測試。作者凍住了模型的backbone,只訓練一個線性分類層。實驗結(jié)果如下:

圖片

圖:Contact Prediction Task的結(jié)果

從結(jié)果可以看到,由于結(jié)構(gòu)token的嵌入,SaProt的表現(xiàn)大大超越了ESM-2,這表明SaProt蘊含了非常豐富的結(jié)構(gòu)信息,使其能夠在結(jié)構(gòu)預測任務上獲得十分優(yōu)異的結(jié)果。同時,論文在SCOPe數(shù)據(jù)庫上對alpha蛋白質(zhì)和beta蛋白質(zhì)進行了可視化,結(jié)果如下:

圖片

圖:在SCOPe數(shù)據(jù)庫上的Embedding可視化

SaProt的可視化結(jié)果非常清晰地將alpha蛋白質(zhì)和beta蛋白質(zhì)區(qū)分開來,而ESM-2的可視化結(jié)果卻將兩種蛋白質(zhì)混雜在一起,這說明了SaProt對結(jié)構(gòu)的變化有很強的感知能力。

不同結(jié)構(gòu)預測方法的比較

除了AF2,目前還存在許多其他的單序列結(jié)構(gòu)預測方法(如ESMFold),因此本文額外測試了其他方法預測出來的結(jié)構(gòu)對SaProt性能的作用。結(jié)果如下:

圖片

圖:不同結(jié)構(gòu)預測方法的fine-tune結(jié)果

從測試結(jié)果可以看出,雖然SaProt在AF2結(jié)構(gòu)上的表現(xiàn)最好(模型本身也是基于AF2結(jié)構(gòu)進行訓練的),但其他的結(jié)構(gòu)預測方法也能讓SaProt與ESM-2等模型性能相當。這意味著考慮到計算與時間成本,單序列結(jié)構(gòu)預測模型也能作為替代方法輸入到SaProt中。

局限

雖然SaProt經(jīng)過訓練展示出了優(yōu)異的性能,但依然還有一些可以改進的地方,例如:

Foldseek默認的結(jié)構(gòu)詞表大小只有20,如果有更加精準的結(jié)構(gòu)編碼模型,擴大結(jié)構(gòu)表征的詞表大小,是不是能進一步提升模型利用結(jié)構(gòu)的能力?

由于計算能力的限制,SaProt只在650M上完成了訓練。如果能夠繼續(xù)擴大模型規(guī)模,是否可以進一步地提升模型表現(xiàn)?

論文雖然已經(jīng)測試了很多的蛋白質(zhì)任務,但還有一些其他任務可以應用探索,例如蛋白質(zhì)序列設計(給定backbone預測氨基酸序列)等。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-05-23 09:28:23

模型蛋白質(zhì)

2021-07-24 10:21:46

模型人工智能深度學習

2022-10-08 12:38:23

模型開源

2023-03-03 14:00:00

模型深度學習

2022-11-02 13:41:46

2023-09-20 12:44:00

AI訓練

2025-07-14 16:59:06

AI蛋白質(zhì)模型

2023-07-06 16:59:56

英特爾

2023-07-06 13:23:49

2022-02-14 00:04:24

AI蛋白質(zhì)結(jié)構(gòu)

2022-03-07 14:45:21

昇思MindSpore開源

2025-09-28 09:12:00

2021-12-20 10:07:35

AI 數(shù)據(jù)人工智能

2023-10-04 09:23:21

微軟開發(fā)

2023-07-13 12:53:02

FrameDiffAI

2022-07-28 19:31:39

AlphabetDeepMind擴展數(shù)據(jù)庫

2022-12-25 13:36:47

論文

2023-01-13 21:13:31

AI人工智能醫(yī)療

2025-02-04 11:11:07

2024-08-26 12:43:46

點贊
收藏

51CTO技術(shù)棧公眾號

狠狠色伊人亚洲综合网站l| 亚洲一级一区| 在线欧美日韩国产| 国产又大又黄又粗的视频| 久久天堂成人| 99三级在线| 青青一区二区三区| 性欧美xxxx交| 国产一区二区久久久久| 亚洲美女av在线播放| 影音先锋男人资源在线| 婷婷综合五月天| 好男人看片在线观看免费观看国语 | 激情六月丁香| 中文字幕不卡三区| 成人黄色av片| 国产激情一区二区三区| 伊人久久大香线蕉午夜av| 日韩不卡一区二区| 日韩欧美亚洲区| 日韩高清不卡在线| 亚洲一区三区视频在线观看| 日韩av一级片| 亚洲乱码一区二区三区| 国产麻豆午夜三级精品| 国产毛片视频网站| 国产精品卡一卡二卡三| 一级毛片免费视频| 在线精品亚洲一区二区不卡| 免费黄网站在线播放| 欧美精品一区二区三区视频| 日本免费一区二区三区四区| 日韩中文字在线| 超碰成人在线观看| 日本欧美精品在线| 女生裸体视频一区二区三区| 国产伦精品一区二区三毛| 久久不射中文字幕| 日本黄xxxxxxxxx100| 久久蜜桃av一区精品变态类天堂| 亚洲这里只有精品| 欧美日韩亚洲精品一区二区三区| 国产大学生校花援交在线播放| 51精品国自产在线| 91九色综合| 欧洲日韩成人av| 9久re热视频在线精品| 青青视频免费在线| 亚洲视频网在线直播| 超碰免费在线| 亚洲少妇激情视频| 综合国产视频| 欧美日韩国产精品一卡| 91伊人久久大香线蕉| 黄色高清在线观看| 51久久夜色精品国产麻豆| 蜜桃成人精品| 国产精品免费在线免费 | 中文有码在线观看| 欧美大肚乱孕交hd孕妇| 国产精品久久久久久久久久辛辛| 国产a∨精品一区二区三区不卡| 欧美日韩调教| 欧美久久在线观看| 欧美日韩国产区| av岛国在线| 日本高清久久天堂| 老司机久久99久久精品播放免费| 国产第一页视频| 欧美四级电影网| 日本亚洲欧洲无免费码在线| 91欧美日韩一区| 国产成人精品影院| 日本福利在线观看| 中文字幕亚洲无线码a| 午夜日韩激情| 特级丰满少妇一级| 欧美va亚洲va在线观看蝴蝶网| swag国产精品一区二区| 免费电影一区| 国产精品国产三级国产aⅴ入口 | 日本不卡免费新一二三区| 国产欧美日韩精品一区| av资源网在线观看| 欧美裸体男粗大视频在线观看| 黄色亚洲免费| 五月综合网站| 亚洲成人中文字幕| 91亚洲自偷观看高清| 成人免费aaa| 欧美一区二区三区不卡| 视频精品在线观看| www.av中文字幕| 日韩一区二区三区电影| 国产毛片一区二区三区| 国产日韩亚洲欧美在线| 欧美日本在线播放| 精品日韩免费| 国产精品自拍片| 欧美一级二级三级蜜桃| 91九色精品国产一区二区| 免费看污黄网站| 亚洲视频日韩精品| 亚洲欧美视频一区二区三区| 国产经典第一页| 俺也去精品视频在线观看| 日韩成人精品在线| 91免费在线| av成人免费观看| 夜夜爽夜夜爽精品视频| caoporn成人免费视频在线| a级片一区二区| 亚洲电影天堂av| 国产精品社区| 岛国视频免费在线观看| 国产精品福利网站| 中文字幕精品在线不卡| **国产精品| 国产欧美日韩网站| 国产午夜精品全部视频在线播放| 日韩精品三区四区| 国产精品剧情一区二区在线观看| 91九色蝌蚪成人| 日本国产一区二区| 欧美在线不卡| 黄色av网站在线免费观看| 国产日韩精品在线| 亚洲一区二区三区爽爽爽爽爽| 天堂av一区| 久久精品免费一区二区| 久久久国产一区二区三区| 成人久久久精品乱码一区二区三区| 欧美v亚洲v| 一区在线电影| 日韩成人中文字幕| 久草热8精品视频在线观看| 国产福利电影在线播放| 伊人网在线免费| yw.139尤物在线精品视频| 久久精品水蜜桃av综合天堂| 国产精品宾馆| 全部孕妇毛片丰满孕妇孕| 国产日韩在线免费| 精品成人在线视频| 在线日本成人| 中文字幕免费高清电视剧网站在线观看 | 亚洲网友自拍| 成人欧美一区二区三区黑人免费| 日本韩国视频一区二区| 国产精品av久久久久久麻豆网| 伪装者在线观看完整版免费| 亚洲综合中文字幕在线观看| 色系网站成人免费| 午夜在线一区| 欧美电影网站| 成人免费观看www在线| 国产综合福利在线| 7777精品伊人久久久大香线蕉的| 丝袜诱惑制服诱惑色一区在线观看| 91美女主播在线视频| 久久久免费视频网站| 日韩免费在线看| 欧美亚洲丝袜传媒另类| 日本不卡123| 麻豆国产一区| 在线看黄的网站| 午夜精品短视频| 美女av一区二区三区| 亚洲一区二区四区蜜桃| 亚洲一区免费| 国产电影一区二区| 无线免费在线视频| 久久av喷吹av高潮av| 欧美在线xxx| 欧美久久一二三四区| eeuss影院一区二区三区| 成人aaaa| 青青草视频在线免费直播| 欧美三级在线观看视频| 欧美有码在线观看| 精品欧美一区二区在线观看| 久久久99久久| 国产日韩专区| 91亚洲精品视频在线观看| 黄色软件在线观看| 欧美乱做爰xxxⅹ久久久| 国产精国产精品| 亚洲福利精品在线| 国产精品美女久久久久久久久久久| 亚洲午夜av| 草草视频在线一区二区| 欧美精品videosex| 老鸭窝av在线| 国产欧美久久久久| 亚洲自拍偷拍福利| 日韩在线中文视频| 91精品国产色综合久久不卡电影| 国产精品久久久久国产精品日日| 日韩和欧美一区二区| 久久国产电影|