摘要MoCa通過“持續(xù)預(yù)訓(xùn)練+異構(gòu)對比學(xué)習(xí)”兩步,把單向注意力VLM升級為強大的雙向多模態(tài)編碼器。3B模型即可超越7B基線,在MMEB、ViDoRev2等基準(zhǔn)刷新紀(jì)錄,并顯著降低對配對標(biāo)注的依賴。TLDR:首次將continualpretraining引入雙向多模態(tài)表征;無標(biāo)注數(shù)據(jù)也能練出SOTA嵌入。Paperhttps:arxiv.orgabs2506.23115Homehttps:haonchen.github.ioMoCa為什么要做MoCa?因果注意力的單向預(yù)測讓VLM難以捕獲深層跨模態(tài)語義,且對高質(zhì)量圖文...
2025-07-23 06:33:49 1225瀏覽 0點贊 0回復(fù) 0收藏
想象一下,如果你的AI助手能記住你的每一次對話、每一個偏好,能夠真正理解你記住你做過的事情…加州大學(xué)圣迭戈分校博士生YuWang與紐約大學(xué)教授XiChen合作提出了MIRIX——全球首個真正具備多模態(tài)長期記憶的AI系統(tǒng),項目同時發(fā)布了可直接使用的Mac桌面應(yīng)用。解決什么問題?現(xiàn)有AI助手的一個明顯局限是缺乏持續(xù)記憶能力。每次對話結(jié)束后,之前的交互信息就會丟失。RAG(檢索增強生成)雖然能補充一些信息,但在處理多模態(tài)數(shù)據(jù)和長...
2025-07-18 14:57:19 4413瀏覽 0點贊 0回復(fù) 0收藏
今日分享一篇羅格斯大學(xué)團隊發(fā)現(xiàn)了大語言模型注意力機制的查詢(Q)和鍵(K)表示中存在非常集中的大值,并探討了這些極大值的應(yīng)用以及來源,該研究已經(jīng)被機器學(xué)習(xí)三大頂會之一ICML收錄.。這項研究揭示了大型語言模型中一個重要現(xiàn)象:在注意力機制的查詢(Q)和鍵(K)表示中存在集中的大值,而在值(V)表示中卻沒有這種模式。這一現(xiàn)象在使用旋轉(zhuǎn)位置編碼(RoPE)的現(xiàn)代Transformer模型中普遍存在。??四大核心發(fā)現(xiàn)1.極大值在Q和K中的特定...
2025-07-01 23:48:50 1471瀏覽 0點贊 0回復(fù) 0收藏
1.StopOverthinking:ASurveyonEfficientReasoningforLargeLanguageModels現(xiàn)在的大模型確實很厲害,尤其是在處理復(fù)雜任務(wù)時。最近像OpenAI的o1和DeepSeekR1這些大推理模型,通過監(jiān)督微調(diào)加強化學(xué)習(xí)的方法,把那種一步一步的推理能力(也就是CoT)提升了不少。不過這里有個矛盾點——雖然更長的推理鏈條能提高準(zhǔn)確率,但也會因為輸出太啰嗦、重復(fù)而增加計算成本,我們管這個叫"過度思考"問題。最近我們團隊做了個系統(tǒng)的研究綜述,...
2025-06-18 06:58:24 1917瀏覽 0點贊 0回復(fù) 0收藏
在數(shù)字化時代,視覺信息在知識傳遞和決策支持中的重要性日益凸顯。然而,傳統(tǒng)的檢索增強型生成(RAG)方法在處理視覺豐富信息時面臨著諸多挑戰(zhàn)。一方面,傳統(tǒng)的基于文本的方法無法處理視覺相關(guān)數(shù)據(jù);另一方面,現(xiàn)有的視覺RAG方法受限于定義的固定流程,難以有效激活模型的推理能力。來自阿里巴巴通義實驗室的最新研究成果——VRAGRL(EmpowerVisionPerceptionBasedRAGforVisuallyRichInformationUnderstandingviaIterativeReaso...
2025-06-06 06:18:32 2167瀏覽 0點贊 0回復(fù) 0收藏
背景隨著GPT4o在圖像生成任務(wù)上的橫空出世,以及越來越多采用自回歸架構(gòu)(autoregressivearchitecture)的文本到圖像(T2I)模型迅速發(fā)展,當(dāng)前一代的生成模型在理解與執(zhí)行用戶復(fù)雜指令(prompts)方面,已經(jīng)實現(xiàn)了飛躍式突破?。如今的T2I模型不僅能識別多個屬性(如顏色、材質(zhì)、風(fēng)格等),還能處理帶有邏輯推理結(jié)構(gòu)甚至復(fù)雜修辭的超長自然語言指令。Asquareimagecontaininga4rowby4columngridcontaining16objectsonawhiteback...
2025-06-06 06:14:42 2431瀏覽 0點贊 0回復(fù) 0收藏
在大語言模型(LLMs)的后訓(xùn)練與推理Scaling時代,一個革命性范式正在崛起:LearningfromRewards(獎勵驅(qū)動學(xué)習(xí))。從OpenAIo1和DeepSeekR1中的強化學(xué)習(xí),到測試時的BestofN采樣,獎勵信號不再只是訓(xùn)練噪聲的附屬,而是引領(lǐng)模型走向主動學(xué)習(xí)的導(dǎo)航星標(biāo)。它使模型更貼近人類偏好、具備復(fù)雜推理能力,推動邁向更通用、更智能、更可控的AI系統(tǒng)!本文是當(dāng)前最系統(tǒng)的LearningfromRewards綜述之一,全面梳理該范式在LLMs后訓(xùn)練(PostTr...
2025-05-23 06:41:48 3040瀏覽 0點贊 0回復(fù) 0收藏
圖片論文:MorphMark:FlexibleAdaptiveWatermarkingforLargeLanguageModels鏈接:https:arxiv.orgabs2505.11541圖片一、研究背景隨著大型語言模型(LLMs)在自然語言生成領(lǐng)域的廣泛應(yīng)用,AI生成內(nèi)容的可追溯性和版權(quán)保護已成為亟待解決的核心問題。基于紅綠表(RedGreenList)機制的水印技術(shù)應(yīng)運而生,通過嵌入可檢測的獨特模式來區(qū)分AI生成內(nèi)容與人類創(chuàng)作內(nèi)容。然而,現(xiàn)有方法普遍面臨一個根本性矛盾:提升水印有效性往往導(dǎo)致...
2025-05-23 06:39:02 4753瀏覽 0點贊 0回復(fù) 0收藏
今日分享一篇羅格斯大學(xué)團隊發(fā)現(xiàn)了大語言模型注意力機制的查詢(Q)和鍵(K)表示中存在非常集中的大值,并探討了這些極大值的應(yīng)用以及來源,該研究已經(jīng)被機器學(xué)習(xí)三大頂會之一ICML收錄.。這項研究揭示了大型語言模型中一個重要現(xiàn)象:在注意力機制的查詢(Q)和鍵(K)表示中存在集中的大值,而在值(V)表示中卻沒有這種模式。這一現(xiàn)象在使用旋轉(zhuǎn)位置編碼(RoPE)的現(xiàn)代Transformer模型中普遍存在。??四大核心發(fā)現(xiàn)1.極大值在Q和K中的特定...
2025-05-09 06:02:39 2207瀏覽 0點贊 0回復(fù) 0收藏
1.Any2Caption:InterpretingAnyConditiontoCaptionforControllableVideoGeneration在視頻創(chuàng)作領(lǐng)域,如何精準(zhǔn)理解用戶需求一直是個難題。今天,我們帶來一項革命性突破——Any2Caption!這個全新框架讓視頻生成徹底告別"意難平",無論什么條件都能精準(zhǔn)把控創(chuàng)作方向。核心優(yōu)勢:智能分離兩大步驟:先解析用戶需求,再生成視頻,避免"理解偏差"全能輸入支持:文字、圖片、視頻甚至專業(yè)參數(shù)(如鏡頭運動、拍攝角度)都能"聽懂"AI大...
2025-04-24 07:26:36 2255瀏覽 0點贊 0回復(fù) 0收藏
1.Qwen2.5OmniTechnicalReport我們?nèi)峦瞥鯭wen2.5Omni,一個能同時理解文字、圖片、聲音和視頻的"全能型"AI模型!它像人類一樣,不僅能看圖聽聲,還能邊思考邊生成自然流暢的文本和語音回答。三大創(chuàng)新亮點:1)同步感知:采用獨特的"交錯處理"技術(shù),讓視頻畫面和音頻完美同步,配合創(chuàng)新的"時間對齊"算法,確保多模態(tài)信息精準(zhǔn)配合。2)雙軌生成:獨創(chuàng)"思考者說話者"架構(gòu)——思考者:像超強大腦一樣生成文字內(nèi)容說話者:根據(jù)思考...
2025-04-14 01:06:10 3484瀏覽 0點贊 0回復(fù) 0收藏
1.LongContextAutoregressiveVideoModelingwithNextFramePrediction在語言生成領(lǐng)域,長上下文自回歸模型已取得顯著進展,但視頻生成卻一直難以有效利用長時間序列信息。為解決這一難題,我們提出了一種名為FrameAutoRegressive的全新視頻生成方法。。FAR借鑒了語言模型逐幀學(xué)習(xí)的思路,通過捕捉視頻連續(xù)幀之間的時序因果關(guān)系,顯著提升了模型的收斂效率,表現(xiàn)優(yōu)于現(xiàn)有主流方法(如TokenAR和視頻擴散模型)。然而,長視頻生成仍...
2025-04-01 00:57:00 3122瀏覽 0點贊 0回復(fù) 0收藏
1.TransformerswithoutNormalization在現(xiàn)代深度學(xué)習(xí)模型中,歸一化層幾乎成了標(biāo)配,大家普遍認(rèn)為不可或缺。但我們的研究發(fā)現(xiàn),其實不用歸一化層也能讓Transformer模型表現(xiàn)優(yōu)異——只需要一個簡單的小技巧就夠了。我們提出的動態(tài)雙曲正切函數(shù)(DyT),本質(zhì)上就是通過調(diào)整參數(shù)α來控制tanh函數(shù)的形狀(DyT(x)tanh(αx)),這個方法能完美替代歸一化層的功能。這靈感來自于Transformer中常用的層歸一化,它其實和tanh函數(shù)的S型曲線...
2025-03-20 07:32:59 4268瀏覽 0點贊 0回復(fù) 0收藏
1.ProcessbasedSelfRewardingLanguageModels大型語言模型在各類下游任務(wù)中表現(xiàn)都很不錯,現(xiàn)在已經(jīng)在好多場景里廣泛應(yīng)用了。我們通過用人類標(biāo)注的偏好數(shù)據(jù)訓(xùn)練語言模型,讓它性能得到了進一步提升。不過,這種性能是受限于人類能力上限的。為了突破這個限制,有人提出了自獎勵方法,就是讓語言模型自己給自己輸出的內(nèi)容獎勵,然后用這些獎勵數(shù)據(jù)來訓(xùn)練。但現(xiàn)在已有的自獎勵方法在數(shù)學(xué)推理場景中不太好用,弄不好還會讓模型性能變...
2025-03-07 11:20:21 2900瀏覽 0點贊 0回復(fù) 0收藏
1.StepVideoT2VTechnicalReport:ThePractice,Challenges,andFutureofVideoFoundationModel我們提出了StepVideoT2V,這是個有300億參數(shù)的超厲害的文本到視頻預(yù)訓(xùn)練模型,它能生成有204幀那么長的視頻內(nèi)容。為了做好視頻生成這個任務(wù),我們專門設(shè)計了一個深度壓縮變分自動編碼器,也就是VideoVAE。它能把空間壓縮到16x16,時間上壓縮8倍,還能保證視頻重建的質(zhì)量非常高。。用戶要是輸入提示內(nèi)容,我們用兩個雙語文本編碼器來處理...
2025-02-18 13:41:43 4133瀏覽 0點贊 0回復(fù) 0收藏
1.GoldmedalistPerformanceinSolvingOlympiadGeometrywithAlphaGeometry2我們推出了AlphaGeometry2,這是對Trinh等人在2024年提出的AlphaGeometry的重大改進版本,如今它在解決奧林匹克幾何問題方面的能力已經(jīng)超過了普通金牌得主。為了實現(xiàn)這一突破,我們首先對原有的AlphaGeometry語言進行了擴展,使其能夠處理涉及物體運動的更難題型,以及包含角度、比例和距離的線性方程的問題。這些改進以及其他新增內(nèi)容,顯著提高了AlphaG...
2025-02-10 12:03:05 3485瀏覽 0點贊 0回復(fù) 0收藏
1.Kimik1.5:ScalingReinforcementLearningwithLLMs語言模型預(yù)訓(xùn)練時,通過預(yù)測下一個詞來提升計算量的方法效果不錯,可訓(xùn)練數(shù)據(jù)量卻限制了它的進一步發(fā)展。強化學(xué)習(xí)(RL)的拓展則為人工智能持續(xù)進步提供了新途徑,讓大語言模型(LLMs)有機會通過學(xué)習(xí)探索擴充訓(xùn)練數(shù)據(jù)。不過,之前相關(guān)研究成果都不太理想,沒有特別突出的。基于這樣的情況,我們來分享Kimik1.5的訓(xùn)練過程。這是我們新研發(fā)的多模態(tài)LLM,使用RL訓(xùn)練。我們會講講R...
2025-01-26 14:40:21 3557瀏覽 0點贊 0回復(fù) 0收藏
1.算法介紹樸素貝葉斯是一種基于貝葉斯定理的分類算法,廣泛應(yīng)用于文本分類、垃圾郵件過濾、情感分析等領(lǐng)域。它是一種簡單但非常有效的分類方法,特別適用于高維度特征空間的分類問題。樸素貝葉斯分類器的"樸素"來源于它對特征之間獨立性的假設(shè)。盡管這個假設(shè)在現(xiàn)實中往往不成立,但該算法在許多實際應(yīng)用中仍然表現(xiàn)出色。2.算法原理3.案例分析我們使用著名的鳶尾花(Iris)數(shù)據(jù)集來演示樸素貝葉斯分類器的應(yīng)用。首先建立樸素貝葉斯分...
2025-01-16 12:17:39 2985瀏覽 0點贊 0回復(fù) 0收藏
1.MiniMax01:ScalingFoundationModelswithLightningAttention我們推出了MiniMax01系列,包括MiniMaxText01和MiniMaxVL01。這兩款產(chǎn)品不僅性能可與頂尖模型相媲美,而且在處理更長文本上下文方面具備卓越能力。其核心技術(shù)是LightningAttention及其高效的擴展方法。為充分發(fā)揮計算能力,我們將其與混合專家(MoE)技術(shù)相結(jié)合,打造出擁有32個專家模塊、共計4560億參數(shù)的模型,每個Token激活459億參數(shù)。針對MoE和閃電注意力機制,...
2025-01-16 12:14:33 4664瀏覽 0點贊 0回復(fù) 0收藏
1.PersonalizedGraphBasedRetrievalforLargeLanguageModels隨著大語言模型(LLMs)的演進,它們提供個性化和上下文相關(guān)響應(yīng)的能力具有改變用戶體驗的潛力。然而,現(xiàn)有的個性化方法通常僅依賴用戶歷史來增強提示,這在冷啟動場景或數(shù)據(jù)稀疏的情況下限制了其有效性。為了克服這些限制,我們提出了一種基于圖的個性化檢索增強生成(PGraphRAG)框架,該框架利用用戶中心的知識圖來豐富個性化。通過直接將結(jié)構(gòu)化的用戶知識融入檢索...
2025-01-08 13:04:30 3994瀏覽 0點贊 0回復(fù) 0收藏