摘要近年來,大型語言模型(LargeLanguageModels,LLMs)的快速發(fā)展拓寬了其應(yīng)用范圍,但同時(shí)也暴露出在平衡通用知識(shí)、代碼生成與數(shù)學(xué)推理能力方面存在挑戰(zhàn)。為解決這一問題,本文提出一種適用于監(jiān)督微調(diào)(SupervisedFineTuning,SFT)的協(xié)作式語義專家(CollaborativeandSemanticExperts,CoE)方法,該方法采用兩階段訓(xùn)練策略。第一階段為專家訓(xùn)練階段,在特定數(shù)據(jù)集上對(duì)前饋網(wǎng)絡(luò)(FeedForwardNetwork,FFN)進(jìn)行微調(diào),培養(yǎng)針對(duì)特...
14h前 96瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要近年來,隨著大型語言模型(LargeLanguageModel,LLM)能力在深度與廣度上的快速發(fā)展,各類相應(yīng)的評(píng)估基準(zhǔn)測(cè)試(Benchmark)數(shù)量日益增多。作為模型性能的量化評(píng)估工具,基準(zhǔn)測(cè)試不僅是衡量模型能力的核心手段,也是指引模型發(fā)展方向、推動(dòng)技術(shù)創(chuàng)新的關(guān)鍵要素。本文首次對(duì)大型語言模型基準(zhǔn)測(cè)試的現(xiàn)狀與發(fā)展進(jìn)行系統(tǒng)性綜述,將283個(gè)具有代表性的基準(zhǔn)測(cè)試劃分為三大類:通用能力基準(zhǔn)測(cè)試(GeneralCapabilitiesBenchmarks)、特...
14h前 118瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要:大型語言模型(LargeLanguageModels,LLMs)憑借在各類應(yīng)用中前所未有的性能,在學(xué)術(shù)界和工業(yè)界的關(guān)注度日益提升。隨著LLMs在研究和日常使用中持續(xù)發(fā)揮重要作用,其評(píng)估工作變得愈發(fā)關(guān)鍵——不僅需要在任務(wù)層面開展評(píng)估,還需從社會(huì)層面評(píng)估以更好地了解其潛在風(fēng)險(xiǎn)。過去幾年,研究者們從多個(gè)角度對(duì)LLMs展開了深入考察,并付出了大量努力。本文對(duì)這些LLMs評(píng)估方法進(jìn)行了全面綜述,重點(diǎn)圍繞三個(gè)核心維度:評(píng)估什么(whattoe...
14h前 62瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要獎(jiǎng)勵(lì)反饋學(xué)習(xí)(ReFL)最近在各種生成任務(wù)中展現(xiàn)出了巨大的潛力,能夠使模型輸出與人類偏好保持一致。在這項(xiàng)工作中,我們首次將ReFL框架引入盲臉修復(fù)任務(wù),稱之為DiffusionReward。DiffusionReward有效地克服了基于擴(kuò)散的方法的局限性,這些方法通常無法生成逼真的面部細(xì)節(jié),并且身份一致性較差。我們框架的核心是面部獎(jiǎng)勵(lì)模型(FRM),它使用精心注釋的數(shù)據(jù)進(jìn)行訓(xùn)練。FRM提供反饋信號(hào),在指導(dǎo)修復(fù)網(wǎng)絡(luò)的優(yōu)化過程中起著關(guān)鍵...
2025-05-30 06:37:39 3058瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要交錯(cuò)多模態(tài)理解與生成能力——使模型能夠以任意順序生成和解釋圖像與文本——已成為多模態(tài)學(xué)習(xí)的關(guān)鍵領(lǐng)域。盡管已有顯著進(jìn)展,但對(duì)這一能力的評(píng)估仍顯不足。現(xiàn)有基準(zhǔn)在數(shù)據(jù)規(guī)模、范圍和評(píng)估深度上存在局限,而當(dāng)前評(píng)估指標(biāo)往往成本高昂或帶有偏見,在實(shí)際應(yīng)用中缺乏可靠性。為應(yīng)對(duì)這些挑戰(zhàn),我們推出MMIE,這是一個(gè)大規(guī)模知識(shí)密集型基準(zhǔn),用于評(píng)估大型視覺語言模型(LVLMs)的交錯(cuò)多模態(tài)理解與生成能力。MMIE包含20,000個(gè)精...
2025-05-29 06:32:07 2512瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要檢索增強(qiáng)生成(RAG)在增強(qiáng)語言模型知識(shí)和減少AI生成幻覺方面表現(xiàn)出強(qiáng)大能力,推動(dòng)了其廣泛應(yīng)用。然而,需要多輪檢索的復(fù)雜任務(wù)仍然具有挑戰(zhàn)性,早期嘗試往往過于樂觀,缺乏良好的自我懷疑意識(shí)。當(dāng)前的多輪RAG系統(tǒng)可能在已經(jīng)檢索到足夠信息時(shí)繼續(xù)搜索,或者在沒有足夠信息或知識(shí)時(shí)提供錯(cuò)誤答案。現(xiàn)有解決方案要么需要大量昂貴的人工標(biāo)注過程監(jiān)督數(shù)據(jù),要么導(dǎo)致性能不佳。本文旨在通過引入新框架SIMRAG來解決這些限制,明確...
2025-05-27 06:44:36 1916瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要我們提出了一種原則性且高效的一步生成模型框架。我們引入了平均速度的概念來表征流場(chǎng),這與流匹配方法中建模的瞬時(shí)速度形成對(duì)比。我們推導(dǎo)出了平均速度與瞬時(shí)速度之間的明確關(guān)系,并用其指導(dǎo)神經(jīng)網(wǎng)絡(luò)訓(xùn)練。我們的方法,稱為均值流模型,是自包含的,無需預(yù)訓(xùn)練、蒸餾或課程學(xué)習(xí)。均值流模型展示了強(qiáng)大的實(shí)證性能:在ImageNet256×256上從頭訓(xùn)練,僅用一次函數(shù)評(píng)估(1NFE)即可達(dá)到3.43的FréchetInceptionDistance(FID)...
2025-05-23 06:27:30 2385瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
圖片圖1.我們提出了MonetGPT,這是一種感知圖像操作的多模態(tài)大語言模型(MLLM),可自動(dòng)為圖像修圖提供建議。給定一張照片(左圖),MonetGPT會(huì)對(duì)其進(jìn)行分析,識(shí)別出一系列問題和可能的修復(fù)調(diào)整。然后,解決方案步驟會(huì)根據(jù)給定的操作庫,轉(zhuǎn)化為一組程序操作以及相應(yīng)的參數(shù)設(shè)置,這一過程分為三個(gè)階段。(我們訓(xùn)練MLLM所使用的視覺謎題此處未展示。)摘要修圖是原始照片后期處理中的一項(xiàng)基本任務(wù)。由文本或筆觸引導(dǎo)的生成式編輯...
2025-05-22 09:34:21 3285瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要擴(kuò)散Transformer(DiT)作為一種前景廣闊的視覺生成擴(kuò)散模型,展現(xiàn)出了令人矚目的性能,但同時(shí)也帶來了巨大的計(jì)算開銷。有趣的是,對(duì)預(yù)訓(xùn)練DiT模型的分析表明,全局自注意力往往存在冗余,主要捕捉局部模式,這凸顯了尋找更高效替代方案的潛力。在本文中,我們重新審視卷積,將其作為構(gòu)建高效且富有表現(xiàn)力的擴(kuò)散模型的替代構(gòu)建塊。然而,直接用卷積替換自注意力通常會(huì)導(dǎo)致性能下降。我們的研究發(fā)現(xiàn),這種性能差距歸因于卷積...
2025-05-21 08:33:54 3339瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要組合式零樣本學(xué)習(xí)(CZSL)旨在通過利用已知組合來識(shí)別未見的狀態(tài)對(duì)象組合。現(xiàn)有研究基本依賴CLIP的跨模態(tài)對(duì)齊能力,但往往忽略了其在捕捉細(xì)粒度局部特征方面的局限性,這些局限性源于其架構(gòu)和訓(xùn)練范式。為解決這一問題,我們提出了一種多階段跨模態(tài)交互(MSCI)模型,該模型有效探索和利用CLIP視覺編碼器的中間層信息。具體而言,我們?cè)O(shè)計(jì)了兩個(gè)自適應(yīng)聚合器,分別從低層視覺特征中提取局部信息和從高層視覺特征中整合全局...
2025-05-21 06:45:57 2658瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要2022年,隨著ChatGPT的發(fā)布,大規(guī)模語言模型受到了廣泛關(guān)注。ChatGPT不僅在參數(shù)量和預(yù)訓(xùn)練語料庫規(guī)模上遠(yuǎn)超前代模型,還通過大量高質(zhì)量的人工標(biāo)注數(shù)據(jù)進(jìn)行微調(diào),實(shí)現(xiàn)了革命性的性能突破。此類進(jìn)展使得企業(yè)和研究機(jī)構(gòu)認(rèn)識(shí)到,構(gòu)建更智能、更強(qiáng)大的模型依賴于豐富且高質(zhì)量的數(shù)據(jù)集。因此,數(shù)據(jù)集的建設(shè)與優(yōu)化成為人工智能領(lǐng)域的關(guān)鍵方向。本文對(duì)訓(xùn)練大規(guī)模語言模型所需的預(yù)訓(xùn)練數(shù)據(jù)和微調(diào)數(shù)據(jù)的現(xiàn)狀進(jìn)行了總結(jié),涵蓋了數(shù)據(jù)規(guī)...
2025-05-20 06:34:03 1.0w瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要盡管下一令牌預(yù)測(cè)被視為通往通用人工智能的一條有前途的道路,但它在多模態(tài)任務(wù)中一直難以取得優(yōu)異成績(jī),目前多模態(tài)任務(wù)仍由擴(kuò)散模型(如StableDiffusion)和組合方法(如CLIP與大語言模型相結(jié)合)主導(dǎo)。在本文中,我們介紹Emu3,這是一套全新的最先進(jìn)的多模態(tài)模型,僅通過下一令牌預(yù)測(cè)進(jìn)行訓(xùn)練。通過將圖像、文本和視頻標(biāo)記化到離散空間中,我們?cè)诙嗄B(tài)序列的混合數(shù)據(jù)上從頭開始訓(xùn)練一個(gè)單一的Transformer。Emu3在生成和...
2025-05-19 09:19:09 2060瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要VILAU是一個(gè)統(tǒng)一基礎(chǔ)模型,融合了視頻、圖像和語言的理解與生成能力。傳統(tǒng)的視覺語言模型(VLMs)在處理視覺內(nèi)容的理解和生成任務(wù)時(shí),使用獨(dú)立的模塊,這可能導(dǎo)致模塊間的不協(xié)調(diào)和模型復(fù)雜度的增加。相比之下,VILAU采用單一的自回歸下一個(gè)標(biāo)記預(yù)測(cè)框架來處理這兩項(xiàng)任務(wù),避免了使用如擴(kuò)散模型等額外組件的需求。這種方法不僅簡(jiǎn)化了模型結(jié)構(gòu),還在視覺語言理解和生成任務(wù)中取得了接近當(dāng)前最優(yōu)水平的性能。VILAU的成功主要?dú)w...
2025-05-19 09:12:20 2728瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要許多現(xiàn)實(shí)世界中的用戶查詢(例如,“如何制作蛋炒飯?”)都能從能夠同時(shí)生成文本步驟和配套圖像的系統(tǒng)中受益,就像烹飪食譜一樣。旨在生成交錯(cuò)文本和圖像的模型在確保這些模態(tài)內(nèi)部和之間的一致性方面面臨挑戰(zhàn)。為了解決這些挑戰(zhàn),我們提出了ISG,這是一個(gè)用于交錯(cuò)文本圖像生成的綜合評(píng)估框架。ISG利用場(chǎng)景圖結(jié)構(gòu)來捕捉文本和圖像塊之間的關(guān)系,在四個(gè)粒度級(jí)別上評(píng)估生成的結(jié)果:整體、結(jié)構(gòu)、塊級(jí)別和圖像特定級(jí)別。這種多...
2025-05-19 09:06:08 1995瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
大型語言模型(LLM)的性能在很大程度上取決于其預(yù)訓(xùn)練數(shù)據(jù)集的質(zhì)量和規(guī)模。然而,像Llama3和Mixtral這樣的前沿開源大語言模型的預(yù)訓(xùn)練數(shù)據(jù)集并未公開,人們對(duì)其創(chuàng)建方式也知之甚少。最近,我們發(fā)布了FineWeb,這是一個(gè)全新的大規(guī)模(包含15萬億詞元,占用44TB磁盤空間)大語言模型預(yù)訓(xùn)練數(shù)據(jù)集。FineWeb源自96個(gè)CommonCrawl快照,與其他開源預(yù)訓(xùn)練數(shù)據(jù)集相比,使用它訓(xùn)練出的大語言模型性能更優(yōu)。為了讓機(jī)器學(xué)習(xí)領(lǐng)域更加透明,...
2025-05-15 06:34:41 1.4w瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
?摘要:?jiǎn)栴}求解一直是人類在眾多領(lǐng)域取得進(jìn)步的根本驅(qū)動(dòng)力。隨著人工智能的發(fā)展,大語言模型(LLMs)已成為能夠解決跨多個(gè)領(lǐng)域復(fù)雜問題的強(qiáng)大工具。與傳統(tǒng)計(jì)算系統(tǒng)不同,大語言模型將原始計(jì)算能力與近似人類推理能力相結(jié)合,使其能夠生成解決方案、進(jìn)行推理,甚至利用外部計(jì)算工具。然而,將大語言模型應(yīng)用于實(shí)際問題求解面臨重大挑戰(zhàn),包括多步推理、領(lǐng)域知識(shí)整合和結(jié)果驗(yàn)證。本綜述探討了大語言模型在復(fù)雜問題求解中的能力...
2025-05-14 10:05:43 2456瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要檢索增強(qiáng)生成(RAG)通過將模型響應(yīng)與查詢相關(guān)的外部知識(shí)相結(jié)合,在提高事實(shí)準(zhǔn)確性方面展現(xiàn)出巨大潛力。然而,大多數(shù)現(xiàn)有的RAG方法僅限于純文本語料庫。盡管最近的研究努力將RAG擴(kuò)展到圖像和視頻等其他模態(tài),但它們通常僅在單一模態(tài)特定的語料庫上運(yùn)行。相比之下,現(xiàn)實(shí)世界中的查詢對(duì)知識(shí)類型的需求差異很大,單一類型的知識(shí)源無法滿足這些需求。為了解決這一問題,我們引入了通用檢索增強(qiáng)生成(UniversalRAG),這是一種新...
2025-05-14 10:00:07 4210瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要目前構(gòu)建多模態(tài)大語言模型(MLLMs)的高效方法,主要是通過簡(jiǎn)單的視覺映射網(wǎng)絡(luò),如線性投影層、多層感知器(MLP)或BLIP2中的QFormer,將視覺信息融入大語言模型(LLMs)。這類網(wǎng)絡(luò)僅對(duì)圖像特征進(jìn)行一次投影,并未考慮圖像與人類輸入之間的交互。因此,獲取的視覺信息可能與人類意圖脫節(jié),無法滿足大語言模型生成符合意圖的回復(fù),這種信息可稱為靜態(tài)視覺信息。為緩解該問題,本文引入LMEye,這是一種類似人眼的可插拔交互式...
2025-05-12 09:19:28 2555瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要大型語言模型(LLMs)的快速發(fā)展催化了視覺語言模型(VLMs)的發(fā)展。整體VLMs避免了模態(tài)特定的編碼器,提供了一種有希望的替代方案,但面臨著性能較差的挑戰(zhàn)。大多數(shù)現(xiàn)有的整體VLMs需要調(diào)整預(yù)訓(xùn)練的LLMs以獲得視覺能力,這可能會(huì)降低它們處理語言的能力。為了解決這一困境,本文提出了一種新的高性能整體VLM,名為HoVLE。我們注意到,當(dāng)圖像嵌入與文本嵌入對(duì)齊時(shí),LLMs已被證明能夠解釋圖像。當(dāng)前整體VLMs的挑戰(zhàn)實(shí)際上在于...
2025-05-12 09:12:44 2025瀏覽 0點(diǎn)贊 0回復(fù) 0收藏
摘要基于指令的圖像編輯能夠通過自然語言提示實(shí)現(xiàn)強(qiáng)大的圖像修改,但當(dāng)前的方法面臨著精度和效率之間的權(quán)衡。微調(diào)方法需要大量的計(jì)算資源和大規(guī)模數(shù)據(jù)集,而免訓(xùn)練技術(shù)在指令理解和編輯質(zhì)量方面存在困難。我們利用大規(guī)模擴(kuò)散變換器(DiT)增強(qiáng)的生成能力和固有的上下文感知來解決這一困境。我們的解決方案有三個(gè)貢獻(xiàn):(1)一種基于上下文提示的零樣本指令遵從的上下文編輯框架,避免了結(jié)構(gòu)變化;(2)一種LoRAMoE混合調(diào)優(yōu)策略...
2025-05-12 09:06:37 3119瀏覽 0點(diǎn)贊 0回復(fù) 0收藏