国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

港大開(kāi)源圖基礎(chǔ)大模型OpenGraph: 強(qiáng)泛化能力,前向傳播預(yù)測(cè)全新數(shù)據(jù)

人工智能 開(kāi)源
OpenGraph,一個(gè)基于圖的基礎(chǔ)模型,專(zhuān)門(mén)用于在多種圖數(shù)據(jù)集上進(jìn)行零樣本預(yù)測(cè)。背后是港大數(shù)據(jù)智能實(shí)驗(yàn)室的主任Chao Huang團(tuán)隊(duì),他們還針對(duì)圖模型提出了提示調(diào)整技術(shù),以提高模型對(duì)新任務(wù)的適應(yīng)性。

圖學(xué)習(xí)領(lǐng)域的數(shù)據(jù)饑荒問(wèn)題,又有能緩解的新花活了!

OpenGraph,一個(gè)基于圖的基礎(chǔ)模型,專(zhuān)門(mén)用于在多種圖數(shù)據(jù)集上進(jìn)行零樣本預(yù)測(cè)。

背后是港大數(shù)據(jù)智能實(shí)驗(yàn)室的主任Chao Huang團(tuán)隊(duì),他們還針對(duì)圖模型提出了提示調(diào)整技術(shù),以提高模型對(duì)新任務(wù)的適應(yīng)性。

目前,這項(xiàng)工作已經(jīng)掛上了GitHub。

據(jù)介紹,這項(xiàng)工作主要深入探討增強(qiáng)圖模型泛化能力的策略(特別是在訓(xùn)練和測(cè)試數(shù)據(jù)存在顯著差異時(shí))。

而OpenGraph旨在通過(guò)學(xué)習(xí)通用的圖結(jié)構(gòu)模式,并僅通過(guò)前向傳播進(jìn)行預(yù)測(cè),實(shí)現(xiàn)對(duì)全新數(shù)據(jù)的零樣本預(yù)測(cè)。

圖片

為了實(shí)現(xiàn)目標(biāo),團(tuán)隊(duì)解決了以下3點(diǎn)挑戰(zhàn):

  • 數(shù)據(jù)集間的token差異:不同圖數(shù)據(jù)集常有不同的圖token集,我們需要模型能夠跨數(shù)據(jù)集進(jìn)行預(yù)測(cè)。
  • 節(jié)點(diǎn)關(guān)系建模:在構(gòu)建通用圖模型時(shí),有效地建模節(jié)點(diǎn)關(guān)系至關(guān)重要,這關(guān)系到模型的擴(kuò)展性和效率。
  • 數(shù)據(jù)稀缺:面對(duì)數(shù)據(jù)獲取的難題,我們通過(guò)大型語(yǔ)言模型進(jìn)行數(shù)據(jù)增強(qiáng),以模擬復(fù)雜的圖結(jié)構(gòu)關(guān)系,提升模型訓(xùn)練質(zhì)量。

通過(guò)一系列創(chuàng)新方法,如拓?fù)涓兄膱DTokenizer和基于錨點(diǎn)的圖Transformer,OpenGraph有效應(yīng)對(duì)上述挑戰(zhàn),在多個(gè)數(shù)據(jù)集上的測(cè)試結(jié)果證明了模型的出色泛化能力。

OpenGraph模型

OpenGraph模型架構(gòu)主要由3個(gè)核心部分組成:

  • 統(tǒng)一圖Tokenizer。
  • 可擴(kuò)展的圖Transformer。
  • 基于大語(yǔ)言模型的知識(shí)蒸餾技術(shù)。

首先來(lái)說(shuō)說(shuō)統(tǒng)一圖Tokenizer。

為了適應(yīng)不同數(shù)據(jù)集的節(jié)點(diǎn)和邊的差異,團(tuán)隊(duì)開(kāi)發(fā)了統(tǒng)一圖Tokenizer,它將圖數(shù)據(jù)標(biāo)準(zhǔn)化為token序列。

這一過(guò)程包括高階鄰接矩陣平滑化和拓?fù)涓兄成洹?/p>

高階鄰接矩陣平滑化即利用鄰接矩陣的高階冪來(lái)解決連接稀疏的問(wèn)題,而拓?fù)涓兄成鋭t是將鄰接矩陣轉(zhuǎn)換為節(jié)點(diǎn)序列,并使用快速奇異值分解(SVD)最小化信息損失,保留更多的圖結(jié)構(gòu)信息。

其次是可擴(kuò)展的圖Transformer。

在token化后,OpenGraph使用Transformer架構(gòu)模擬節(jié)點(diǎn)間的依賴(lài),主要采用以下技術(shù)優(yōu)化模型性能和效率:

一來(lái)是token序列采樣,通過(guò)采樣技術(shù)減少模型需要處理的關(guān)系數(shù)量,從而降低訓(xùn)練的時(shí)間和空間復(fù)雜度。

二來(lái)是錨點(diǎn)采樣的自注意力機(jī)制。此方法進(jìn)一步降低計(jì)算復(fù)雜度,通過(guò)分階段學(xué)習(xí)節(jié)點(diǎn)間的信息傳遞,有效提高模型的訓(xùn)練效率和穩(wěn)定性。

最后是大語(yǔ)言模型知識(shí)蒸餾。

為了應(yīng)對(duì)培訓(xùn)通用圖模型時(shí)面臨的數(shù)據(jù)隱私和種類(lèi)多樣性問(wèn)題,團(tuán)隊(duì)從大語(yǔ)言模型(LLM)的知識(shí)和理解能力中獲得靈感,使用LLM生成各種圖結(jié)構(gòu)數(shù)據(jù)。

這一數(shù)據(jù)增強(qiáng)機(jī)制通過(guò)模擬真實(shí)世界圖的特征,有效提升了數(shù)據(jù)的質(zhì)量和實(shí)用性。

團(tuán)隊(duì)還首先生成適應(yīng)特定應(yīng)用的節(jié)點(diǎn)集,每個(gè)節(jié)點(diǎn)擁有文本描述以便生成邊。

在面對(duì)如電子商務(wù)平臺(tái)這種大規(guī)模節(jié)點(diǎn)集時(shí),研究人員通過(guò)將節(jié)點(diǎn)細(xì)分為更具體的子類(lèi)別來(lái)處理。

例如,從“電子產(chǎn)品”細(xì)化到具體的“移動(dòng)電話(huà)”“筆記本電腦”等,此過(guò)程反復(fù)進(jìn)行,直到節(jié)點(diǎn)精細(xì)到接近真實(shí)實(shí)例。

提示樹(shù)算法則按樹(shù)狀結(jié)構(gòu)將節(jié)點(diǎn)細(xì)分,并生成更細(xì)致的實(shí)體。

從一般的類(lèi)別如“產(chǎn)品”開(kāi)始,逐步細(xì)化到具體的子類(lèi)別,最終形成節(jié)點(diǎn)樹(shù)。

至于邊的生成,利用吉布斯采樣,研究人員基于已生成的節(jié)點(diǎn)集來(lái)形成邊。

為了減少計(jì)算負(fù)擔(dān),我們不直接通過(guò)LLM遍歷所有可能的邊,而是先利用LLM計(jì)算節(jié)點(diǎn)間的文本相似度,再通過(guò)簡(jiǎn)單的算法判斷節(jié)點(diǎn)關(guān)系。

在此基礎(chǔ)上,團(tuán)隊(duì)引入了幾種技術(shù)調(diào)整:

  • 動(dòng)態(tài)概率標(biāo)準(zhǔn)化:通過(guò)動(dòng)態(tài)調(diào)整,將相似度映射到更適合采樣的概率范圍內(nèi)。
  • 節(jié)點(diǎn)局部性:引入局部性概念,只在節(jié)點(diǎn)的局部子集間建立連接,模擬現(xiàn)實(shí)世界中的網(wǎng)絡(luò)局部性。
  • 圖拓?fù)淠J阶⑷耄?/strong>使用圖卷積網(wǎng)絡(luò)修正節(jié)點(diǎn)表示,以更好地適應(yīng)圖結(jié)構(gòu)特征,減少分布偏差。

以上步驟確保了生成的圖數(shù)據(jù)不僅豐富多樣,而且貼近現(xiàn)實(shí)世界的連接模式和結(jié)構(gòu)特性。

實(shí)驗(yàn)驗(yàn)證與性能分析

需要注意,該實(shí)驗(yàn)專(zhuān)注于使用僅由LLM生成的數(shù)據(jù)集訓(xùn)練OpenGraph模型,并在多樣化的真實(shí)場(chǎng)景數(shù)據(jù)集上進(jìn)行測(cè)試,涵蓋節(jié)點(diǎn)分類(lèi)和鏈接預(yù)測(cè)任務(wù)。

實(shí)驗(yàn)設(shè)計(jì)如下:

零樣本設(shè)置。

為了評(píng)估OpenGraph在未見(jiàn)過(guò)的數(shù)據(jù)上的表現(xiàn),我們?cè)谏傻挠?xùn)練集上訓(xùn)練模型,然后在完全不同的真實(shí)測(cè)試集上進(jìn)行評(píng)估。確保了訓(xùn)練和測(cè)試數(shù)據(jù)在節(jié)點(diǎn)、邊和特征上均無(wú)重合。

少樣本設(shè)置。

考慮到許多方法難以有效執(zhí)行零樣本預(yù)測(cè),我們引入少樣本設(shè)置,基線(xiàn)模型在預(yù)訓(xùn)練數(shù)據(jù)上預(yù)訓(xùn)練后,采用k-shot樣本進(jìn)行微調(diào)。

在2個(gè)任務(wù)和8個(gè)測(cè)試集上的結(jié)果顯示,OpenGraph在零樣本預(yù)測(cè)中顯著優(yōu)于現(xiàn)有方法。

此外,現(xiàn)有預(yù)訓(xùn)練模型在跨數(shù)據(jù)集任務(wù)中的表現(xiàn)有時(shí)不如從頭訓(xùn)練的模型。

圖Tokenizer設(shè)計(jì)影響研究

同時(shí),團(tuán)隊(duì)探索了圖Tokenizer設(shè)計(jì)如何影響模型性能。

首先,通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),不進(jìn)行鄰接矩陣平滑(平滑階數(shù)為0)會(huì)顯著降低性能,說(shuō)明平滑處理的必要性。

然后,研究人員嘗試了幾種簡(jiǎn)單的拓?fù)涓兄娲桨福嚎鐢?shù)據(jù)集的獨(dú)熱編碼ID、隨機(jī)映射和基于節(jié)點(diǎn)度數(shù)的表示。

實(shí)驗(yàn)結(jié)果顯示,這些替代方案性能均不理想。

具體來(lái)說(shuō),跨數(shù)據(jù)集的ID表示效果最差,基于度數(shù)的表示也表現(xiàn)不佳,而隨機(jī)映射雖稍好,但與優(yōu)化的拓?fù)涓兄成湎啾龋阅懿罹嗝黠@。

圖片

數(shù)據(jù)生成技術(shù)的影響

團(tuán)隊(duì)調(diào)查了不同預(yù)訓(xùn)練數(shù)據(jù)集對(duì)OpenGraph性能的影響,包括使用基于LLM的知識(shí)蒸餾方法生成的數(shù)據(jù)集,以及幾個(gè)真實(shí)數(shù)據(jù)集。

實(shí)驗(yàn)中比較的預(yù)訓(xùn)練數(shù)據(jù)集包括從團(tuán)隊(duì)生成方法中移除某項(xiàng)技術(shù)后的數(shù)據(jù)集、2個(gè)與測(cè)試數(shù)據(jù)集無(wú)關(guān)的真實(shí)數(shù)據(jù)集(Yelp2018和Gowalla)、1個(gè)與測(cè)試數(shù)據(jù)集類(lèi)似的真實(shí)數(shù)據(jù)集(ML-10M)。

實(shí)驗(yàn)結(jié)果顯示,生成數(shù)據(jù)集在所有測(cè)試集上均展示了良好性能;三種生成技術(shù)的移除都顯著影響了性能,驗(yàn)證了這些技術(shù)的有效性。

使用與測(cè)試集無(wú)關(guān)的真實(shí)數(shù)據(jù)集(如Yelp和Gowalla)訓(xùn)練時(shí),性能有時(shí)候會(huì)下降,這可能是由于不同數(shù)據(jù)集之間的分布差異。

ML-10M數(shù)據(jù)集在與之類(lèi)似的測(cè)試數(shù)據(jù)集(如ML-1M和ML-10M)上取得了最佳性能,突顯了訓(xùn)練和測(cè)試數(shù)據(jù)集相似性的重要性。

圖片

Transformer采樣技術(shù)的研究

在這部分實(shí)驗(yàn)中,研究團(tuán)隊(duì)探討了圖Transformer模塊中使用的兩種采樣技術(shù):

token序列采樣(Seq)和錨點(diǎn)采樣(Anc)。

他們對(duì)這兩種采樣方法進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),以評(píng)估它們對(duì)模型性能的具體影響。

圖片

實(shí)驗(yàn)結(jié)果表明,無(wú)論是token序列采樣還是錨點(diǎn)采樣,兩者都能在訓(xùn)練和測(cè)試階段有效地減少模型的空間和時(shí)間復(fù)雜度。這對(duì)于處理大規(guī)模圖數(shù)據(jù)尤為重要,可以顯著提高效率。

從性能的角度分析,token序列采樣對(duì)模型的整體性能產(chǎn)生了正面影響。這種采樣策略通過(guò)選取關(guān)鍵的token來(lái)優(yōu)化圖的表示,從而提高了模型處理復(fù)雜圖結(jié)構(gòu)的能力。

相比之下,在ddi數(shù)據(jù)集上的實(shí)驗(yàn)顯示,錨點(diǎn)采樣可能對(duì)模型性能產(chǎn)生負(fù)面影響。錨點(diǎn)采樣通過(guò)選擇特定的節(jié)點(diǎn)作為錨點(diǎn)來(lái)簡(jiǎn)化圖結(jié)構(gòu),但這種方法可能會(huì)忽略一些關(guān)鍵的圖結(jié)構(gòu)信息,從而影響模型的準(zhǔn)確性。

綜上所述,雖然這兩種采樣技術(shù)都有其優(yōu)勢(shì),但在實(shí)際應(yīng)用中需要根據(jù)具體的數(shù)據(jù)集和任務(wù)需求仔細(xì)選擇合適的采樣策略。

研究結(jié)論

本研究旨在開(kāi)發(fā)一個(gè)高適應(yīng)性框架,該框架能夠精確地識(shí)別和解析各種圖結(jié)構(gòu)的復(fù)雜拓?fù)淠J健?/p>

研究人員的目標(biāo)是通過(guò)充分發(fā)揮所提出模型的能力,顯著增強(qiáng)模型在零樣本圖學(xué)習(xí)任務(wù)中的泛化能力,包括多種下游應(yīng)用。

模型是在可擴(kuò)展的圖Transformer架構(gòu)和LLM增強(qiáng)的數(shù)據(jù)增強(qiáng)機(jī)制的支持下構(gòu)建的,以提升OpenGraph的效率和健壯性。

通過(guò)在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行的廣泛測(cè)試,團(tuán)隊(duì)證明了模型的出色泛化性能。

圖片

據(jù)了解,作為對(duì)圖基礎(chǔ)模型構(gòu)建的初步嘗試,未來(lái),團(tuán)隊(duì)工作將著重于增加框架的自動(dòng)化能力,包括自動(dòng)識(shí)別噪聲連接和進(jìn)行反事實(shí)學(xué)習(xí)。

同時(shí),團(tuán)隊(duì)計(jì)劃學(xué)習(xí)和提取各種圖結(jié)構(gòu)的通用且可遷移的模式,進(jìn)一步推動(dòng)模型的應(yīng)用范圍和效果。

參考鏈接:

[1]論文: https://arxiv.org/pdf/2403.01121.pdf。

[2]源碼庫(kù):https://github.com/HKUDS/OpenGraph。

責(zé)任編輯:姜華 來(lái)源: 量子位
相關(guān)推薦

2024-03-15 08:00:00

模型數(shù)據(jù)

2024-10-14 14:45:00

數(shù)據(jù)模型

2024-12-30 13:40:00

2023-11-17 23:02:38

模型學(xué)習(xí)

2016-12-15 13:51:30

開(kāi)源數(shù)據(jù)可視化

2023-12-22 14:31:52

2024-10-15 15:30:00

大模型數(shù)據(jù)

2024-03-18 14:17:06

大模型開(kāi)源人工智能

2009-08-12 09:09:04

2018-08-10 14:44:01

Python數(shù)據(jù)工具

2024-06-03 08:30:00

2023-07-25 13:52:54

開(kāi)源模型

2009-11-02 09:38:07

開(kāi)源ESB

2025-08-26 09:10:00

2023-07-28 15:39:20

TransGPT人工智能開(kāi)源

2023-04-18 17:20:00

算法訓(xùn)練

2023-11-14 09:00:00

向量數(shù)據(jù)庫(kù)ChromaMilvus

2010-01-05 13:41:40

2025-07-10 08:17:32

2018-11-14 10:15:58

開(kāi)源技術(shù) 數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

欧美一区二区三区婷婷月色| 国产丝袜视频一区| 国产亚洲一区在线播放| 日本免费一区二区三区等视频| 国产精品免费久久| 日本免费黄色小视频| 欧美日韩伊人| 青青青国产精品一区二区| 欧美艳星kaydenkross| 欧美日韩国产综合视频在线观看| 国产a国产a国产a| 99久久婷婷国产| 日本黄色播放器| 妖精视频成人观看www| 亚洲一区二区中文在线| 天堂中文在线8| 操欧美女人视频| 亚洲国产精品久久久久久| 色在线免费视频| 中文字幕乱码久久午夜不卡| 黄色免费高清视频| 欧美中文字幕| 99热在线国产| 欧美精品一区二区三区蜜臀| 日本免费专区| 中日韩av电影| 国产午夜福利视频在线观看| 国产福利一区二区三区| 久久一区免费| 牛牛国产精品| 国产精品中文在线| 国模精品一区| 国产脚交av在线一区二区| 国产成人精品亚洲线观看| 久久国产精品视频| 国产精品亲子伦av一区二区三区| 在线播放91灌醉迷j高跟美女| 激情文学一区| 成人毛片一区二区| 亚洲女性喷水在线观看一区| 少妇性l交大片| 欧美国产亚洲一区| 久久99热这里只有精品| 日韩.欧美.亚洲| 日韩精品电影在线观看| 日韩精品欧美在线| 美女视频网站黄色亚洲| 日韩激情视频| 国产最新精品免费| 日韩亚洲欧美一区二区| 精品精品欲导航| 欧美xxxx老人做受| 日本中文字幕中出在线| 国产日韩精品在线看| 欧美三级三级三级爽爽爽| 欧美精品羞羞答答| 手机福利视频欧美| 亚洲女人天堂视频| 久久久久久久久久看片| 麻豆视频在线观看免费网站| 欧美重口另类videos人妖| 国产91精品对白在线播放| 国产对白在线播放| 国产成人无遮挡在线视频| 亚洲伊人第一页| 成人激情诱惑| 国产成人久久精品| 色综合婷婷久久| 日韩午夜精品| 欧美18 19xxx| 久久99热精品这里久久精品| 欧美极品aⅴ影院| 综合综合综合综合综合网| 精品中文字幕视频| 午夜av电影一区| 午夜精品视频一区二区三区在线看| 在线三级av| 明星裸体视频一区二区| 亚洲第一区在线观看| 欧美性猛交xxxx乱大交蜜桃| 欧美黑人巨大videos精品| 91中文字精品一区二区| 欧美午夜激情小视频| 永久免费精品视频| 天堂视频福利| 亚洲电影在线观看| 国产精品自拍区| 91久久久在线| 亚洲嫩草精品久久| 麻豆影院在线观看| 男人靠女人免费视频网站| 最近2019好看的中文字幕免费| 国产成人精品在线看| 视频欧美一区| 97影院在线观看| 色一情一区二区三区四区| 这里只有精品视频在线观看| 亚洲最新色图| 日本欧美电影在线观看| 成人国产亚洲精品a区天堂华泰| 中文字幕欧美激情一区| 国产精品久久久久久模特| www免费视频观看在线| 日本不卡二区| 91一区二区| 伊人色综合一区二区三区影院视频| 成人综合婷婷国产精品久久免费| 精品久久97| 国产日产欧美视频| 在线精品一区二区| av无码久久久久久不卡网站| 黄色一区二区在线观看| 玛雅亚洲电影| 99re在线国产| 国产欧美日韩在线| 欧美人与牲禽动交com| 日本精品视频在线观看| 精品无人区卡一卡二卡三乱码免费卡| 九草视频在线观看| 色偷偷综合社区| 999在线观看精品免费不卡网站| 天天操天天摸天天爽| 欧美成人bangbros| 久久久久免费av| 成年人视频在线| 欧美成人免费全部| 国内精品视频一区二区三区八戒| 亚洲嫩模一区| 91国产视频在线播放| zzijzzij亚洲日本少妇熟睡| 青草av在线| 国产精品一区二区你懂得| 一区二区视频免费在线观看| www.欧美视频| 被灌满精子的波多野结衣| 亚洲成人久久久久| 精品成人一区| 水莓100国产免费av在线播放| 欧美综合国产精品久久丁香| 久久精品视频网| 日韩毛片免费视频一级特黄| 韩国黄色一级大片| 精品播放一区二区| 久久狠狠婷婷| 国产激情小视频在线| 国产九色精品| 欧美亚洲自拍偷拍| 国内精品福利| 国产在线免费观看| 成人精品一区二区三区| 亚洲国产aⅴ成人精品无吗| 久久久伦理片| 日本不卡一区在线| 97在线看福利| 亚洲免费观看视频| 日韩毛片视频| 欧美性孕妇孕交| 91精品久久香蕉国产线看观看| 欧美日韩国产精品专区| 999精品视频| 免费毛片在线| 精品福利影视| 日韩女优毛片在线| 精品一区二区三区在线视频| 中文字幕高清在线播放| 日韩一二区视频| 在线播放日韩精品| 91小视频在线观看| 福利片一区二区| 国产国产人免费人成免费视频| 国产成人在线一区二区| 亚洲高清免费视频| 影音先锋日韩资源| 9999精品成人免费毛片在线看 | 伊人久久青青草| 国产在线精品播放| 欧美视频一区二区三区…| 久久精品影视| 成人在线观看网站| 日本日本精品二区免费| 亚洲精品98久久久久久中文字幕| 国产91精品露脸国语对白| 久久伊人影院| 超碰在线公开免费| 国产成人成网站在线播放青青 | 999精品视频在这里| www.1024| 99影视tv| 亚洲国产精久久久久久| 91亚洲资源网| 久久av影视| 天堂地址在线www| 视色,视色影院,视色影库,视色网| 久久精品人人做人人爽| 一区二区三区成人| 亚洲欧美日本国产专区一区| 欧洲av一区二区| 97在线观看播放| 亚洲第一二区| 久久久久久久久久久久久久久久久久久|