IBM Granite 3.3：語音識別、推理增強與RAG的完美融合原創(chuàng)

發(fā)布于 2025-4-23 06:57

瀏覽

0收藏

在人工智能的浪潮中，企業(yè)對靈活、高效且透明的模型需求日益增長。然而，現(xiàn)有的解決方案往往難以同時滿足這些要求。開源模型可能缺乏特定領域的功能，而專有系統(tǒng)有時會限制訪問或適應性。這種差距在涉及語音識別、邏輯推理和檢索增強生成（RAG）的任務中尤為明顯，技術碎片化和工具鏈不兼容導致了操作瓶頸。

4月22日，IBM帶來了全新的Granite 3.3，這是一套專為企業(yè)應用設計的開源基礎模型，涵蓋了語音處理、推理能力和檢索機制的升級。Granite Speech 3.3 8B是IBM首個開源的語音轉文本（STT）和自動語音翻譯（AST）模型，它在轉錄準確性和翻譯質(zhì)量上超越了基于Whisper的系統(tǒng)。該模型能夠處理長音頻序列，減少人工切割引入的誤差，提升了在實際場景中的可用性。

語音識別與翻譯：Granite Speech 3.3 8B的突破

Granite Speech 3.3 8B是一個緊湊且成本高效的音頻輸入（和文本輸入）、文本輸出的STT模型，專為企業(yè)應用中處理語音輸入而設計，并針對自動語音識別（ASR）和自動語音翻譯（AST）進行了優(yōu)化。在轉錄任務中，Granite Speech 3.3 8B在多個知名公共數(shù)據(jù)集的測試中，持續(xù)展現(xiàn)出比領先的開源和閉源模型更高的準確性。

IBM Granite 3.3：語音識別、推理增強與RAG的完美融合-AI.x社區(qū)

在翻譯方面，Granite Speech 3.3 8B能夠將英語自動翻譯成多種語言，包括法語、西班牙語、意大利語、德語、葡萄牙語、日語和普通話。在IBM對AST性能的測試中，Granite Speech 3.3 8B在CoVost數(shù)據(jù)集支持的語言上，與OpenAI的GPT-4o和Google的Gemini 2.0 Flash等領先的專有模型保持同步。更多關于翻譯性能的信息可以在模型的Hugging Face模型卡中找到。

架構與設計

從架構上看，Granite Speech 3.3由以下部分組成：

語音編碼器：包含10個Conformer模塊，通過連接時序分類（CTC）在專注于ASR的數(shù)據(jù)集上進行訓練。
語音投影器：這里是一個2層的Query Transformer（Q-former），它將音頻嵌入投影到一個可以被LLM解釋的空間。
LLM：即Granite 3.3 8B Instruct，具有128K的上下文長度。
LoRA適配器：當存在音頻數(shù)據(jù)時，應用于LLM的查詢和值投影矩陣。

與直接集成語音和文本的單次通過模型不同，Granite Speech 3.3采用兩次通過的設計。例如，要向模型詢問有關音頻文件的問題，需要先調(diào)用轉錄音頻，然后再提示模型查詢轉錄的文本。如果提示中包含“”標記和相應的.wav文件，Granite Speech將激活音頻編碼器、投影器和LoRA適配器。如果沒有，模型將僅以文本模式運行，使用Granite 3.3 Instruct 8B。

這種兩次通過的方法確保了Granite Speech 3.3 8B在文本查詢上的表現(xiàn)與其底層LLM（Granite 3.3 8B Instruct）一致，避免了多模態(tài)模型常見的基于文本的性能下降。只要提供了一個能夠正確服務文本和語音模型的推理平臺，開發(fā)者可以將Granite Speech 3.3 8B視為Granite 3.3 8B Instruct的一個版本，增加了音頻輸入能力。

與傳統(tǒng)的基于Whisper的ASR模型不同，Granite Speech 3.3可以接受任意長度的輸入。在測試中，該模型能夠在H100 80GB GPU上輕松處理一個20分鐘的音頻文件，而不是固定在30秒的窗口。在基于Whisper的模型中，超過最大時長的音頻文件必須被切割成30秒的片段，這通常會在這些30秒切割點附近引入不準確之處。一般來說，你不需要進行的人工切割越少，引入的不準確之處就越少。

盡管Granite Speech 3.3可以處理相當長的音頻輸入，但值得注意的是，該模型尚未針對長音頻數(shù)據(jù)進行微調(diào)。為了保持一致的準確性，建議每個離散音頻輸入單元的時長限制為1分鐘。

改進方向

Granite Speech 3.3只是IBM探索Granite系列音頻能力的開端。正在進行的研究旨在為未來的版本（特別是在Granite 4中）增強Granite Speech，包括：

多語言編碼：目前，Granite Speech 3.3的音頻編碼器僅支持英語。未來的一個重要步驟是開發(fā)能夠處理多種語言并敏感于副語言現(xiàn)象的音頻編碼器，從而實現(xiàn)真正的多語言輸入。
精細化數(shù)據(jù)配方：未來的訓練計劃將納入更多且更高質(zhì)量的訓練數(shù)據(jù)，其中針對特定用例的合成數(shù)據(jù)生成將發(fā)揮重要作用。我們還在嘗試額外的微調(diào)和數(shù)據(jù)平衡步驟。
早期模態(tài)融合：我們正在探索實現(xiàn)一個更統(tǒng)一的結構，將音頻特征整合到未來Granite模型的所有訓練階段。
情感檢測：未來的Granite Speech模型將通過訓練我們的聲學編碼器對非詞匯音頻事件更加敏感，從而支持語音情感識別（SER）能力。

文本推理與FIM能力：Granite 3.3 Instruct的升級

Granite 3.3 8B Instruct和Granite 3.3 2B Instruct是IBM最新的僅文本指令調(diào)優(yōu)模型，它們增加了填充中間（FIM）能力，并繼續(xù)完善在Granite 3.2中引入的推理能力。

我們還發(fā)布了它們的基礎模型對應版本——Granite 3.3 8B Base和Granite 3.3 2B Base，它們?nèi)〈薌ranite 3.1的前輩，為開發(fā)者提供了訪問我們FIM能力模型的機會，以便他們進行自己的微調(diào)工作。

填充中間（FIM）

自回歸LLM（通常用于文本生成的LLM）本質(zhì)上是從左到右移動的。它們通過自監(jiān)督學習進行訓練，以迭代預測序列中的下一個標記，基于前面標記的信息，直到序列被認為完成。盡管這種設計適用于各種生成任務，但它在另一種任務上存在不足：根據(jù)前面和后面的標記預測正確的標記。換句話說，傳統(tǒng)的自回歸LLM無法“填充中間”。

要將自回歸模型適應填充中間，需要重新設計訓練任務，以“欺騙”LLM使用其內(nèi)在的左到右預測能力來預測中間的標記。這通常需要將一個樣本段落劃分為前綴（前面的標記）、后綴（后面的標記）和中間（需要通過填充預測的標記），然后重新排列段落，使模型在被要求預測中間標記之前，同時提供前綴和后綴。Granite 3.3利用專用標記，使模型能夠基于前綴和后綴生成內(nèi)容。

FIM有廣泛的應用場景，特別是在編碼任務中，從代碼修復和錯誤連接到重構，再到快速生成樣板代碼，以及啟用函數(shù)參數(shù)或文檔字符串的插入。

增強推理

Granite 3.2的重點是通過思考偏好優(yōu)化（TPO）豐富指令模型的推理能力，以提高它們遵循復雜指令的能力，而不會犧牲一般性能。Granite 3.3 Instruct的重點是在保留這些收益的同時，豐富模型在復雜數(shù)學推理上的表現(xiàn)。

基于更新的Granite 3.3基礎模型，并通過多階段強化學習使用TPO和組相對策略優(yōu)化（GRPO）進行微調(diào)，Granite 3.3 Instruct模型在與“推理”能力相關的高技術基準測試中表現(xiàn)出顯著的改進。

IBM Granite 3.3：語音識別、推理增強與RAG的完美融合-AI.x社區(qū)

Granite 3.3 8B在MATH500基準測試中的表現(xiàn)輕松超過了Anthropic的Claude 3.5 Haiku（64.2%）和Meta的Llama 3.1 8B Instruct（44.4%），與24B參數(shù)的Mistral Small 3（70.6%）大致相當，僅略低于Claude 3.5 Sonnet（72.4%）和OpenAI的GPT-4o Mini（72.6%）。

與Granite 3.2 Instruct模型一樣，“思考”功能可以輕松地開啟和關閉，允許開發(fā)者在需要時優(yōu)先考慮增強的推理鏈（CoT），而在不需要時優(yōu)先考慮成本效益和低延遲。

通過LoRA適配器優(yōu)化RAG

為了增強現(xiàn)有的基于Granite的應用，并為下一代性能增強的LoRA適配器的開發(fā)提供信息，IBM還通過Granite Experiments（一個IBM研究用于測試開源想法的游樂場）發(fā)布了5個（主要是）RAG特定的LoRA適配器，用于Granite 3.2 8B Instruct。這些LoRA適配器中的每一個都利用模型的內(nèi)在知識來啟用特定任務，例如重寫檢索查詢或檢測幻覺。

IBM研究開發(fā)了這些“傳統(tǒng)”LoRA適配器，并為每個適配器開發(fā)了使用一種新的低秩適應方法的對應版本，我們稱之為激活LoRA（aLoRA）。與標準LoRA適配器不同，IBM的aLoRA簡單地重用現(xiàn)有的鍵值（KV）緩存，避免了重新計算上下文（或“預填充”）的需要。激活LoRA在生成質(zhì)量上與標準LoRA相當，同時提供了顯著的運行時和計算優(yōu)勢。aLoRA的源代碼可以在這里找到。

RAG幻覺檢測

即使使用了RAG，LLM有時也會產(chǎn)生幻覺。當配備了RAG幻覺檢測LoRA時，模型將提供一個“忠實度分數(shù)”，范圍在0到1之間（以0.1為增量），反映了其輸出與檢索到的文檔中信息的接近程度。較低的忠實度分數(shù)表示更高的幻覺風險。如果問題無法通過可用信息回答，模型將輸出“無法回答”。

RAG查詢重寫

檢索引擎對包含所有相關信息的獨立查詢的響應結果，比對需要對話中早期上下文才能執(zhí)行的查詢的響應結果要好得多。配備了查詢重寫LoRA后，模型將自動將任何非獨立用戶查詢重寫為一個完全自包含的查詢。例如，考慮以下對話：

用戶：“蘋果公司的CEO是誰？”模型：“蒂姆·庫克是蘋果公司的首席執(zhí)行官。”用戶：“微軟呢？”模型會將用戶的第一個查詢原樣傳遞，但將第二個查詢重寫為“微軟公司的CEO是誰？”。在測試中，這種重寫將模型響應的相關性提高了多達21個百分點。

盡管它是為RAG設計的，但查詢重寫并不需要RAG文檔的存在：它也可以用于重寫用戶查詢以用于其他用例，例如工具調(diào)用。

RAG引用生成

當配備了RAG引用生成LoRA時，模型將為其輸出的每一句話生成引用（如果該句子受到任何外部來源的啟發(fā)）。每個句子級別的引用不僅注明了引用的來源，還包含了來自引用來源的一組句子，這些句子支持模型的相應輸出句子。

RAG可回答性預測

當配備了RAG可回答性預測LoRA時，模型將確定用戶的問題是否可以使用連接文檔中的信息回答。這種二元分類——“可回答”或“不可回答”——可以用于過濾掉無法回答的問題（減少幻覺）或提示模型以不同的方式重新查詢檢索器。

不確定性預測

對于每個模型輸出，不確定性LoRA（源自MIT-IBM沃森人工智能實驗室的AI模型校準研究）使模型能夠生成一個量化后的“確定性分數(shù)”，范圍從0到9（分別代表5%到95%的確定性）。該分數(shù)本質(zhì)上反映了模型的響應在多大程度上得到了其訓練數(shù)據(jù)中信息的支持。

組合使用RAG LoRA

傳統(tǒng)的RAG涉及單次推理——一個基于特定上下文的簡單提示——產(chǎn)生單個模型輸出。我們建議在利用多個LoRA適配器進行多次推理的工作流程中使用這些LoRA，以產(chǎn)生最終的模型響應。

例如，你可以首先實現(xiàn)查詢重寫，以在必要時快速重寫初始提示，以實現(xiàn)最佳的檢索器準確性。一旦模型使用重寫后的提示生成了檢索增強的響應，你隨后可以實現(xiàn)RAG幻覺檢測，以驗證對檢索到的文檔信息的適當忠實度。如果忠實度分數(shù)低于可接受的閾值，你的工作流程可以指示模型重新采樣響應，直到忠實度分數(shù)超過該閾值。一旦不再檢測到幻覺，你可以啟用RAG引用，為用戶提供最終響應。

這本質(zhì)上類似于RAG的測試時間計算擴展，通過多次推理來改進和豐富模型的最終輸出。我們期待看到開源社區(qū)如何實現(xiàn)和實驗這些新的LoRA適配器。有關RAG LoRA及其對模型性能的影響的更多信息，可以在隨附的技術論文中找到。

IBM Granite的未來展望

IBM研究團隊目前正在積極訓練Granite 4.0，這是Granite架構的重大演變，展示了在速度、上下文長度和容量方面的有希望的提升。盡管具體細節(jié)將在第二季度晚些時候公布，但客戶、合作伙伴和開發(fā)者可以相信，IBM將繼續(xù)致力于開發(fā)小而實用的模型，這些模型可以在低成本和低延遲下運行。

開始使用Granite 3.3

新的Granite 3.3 Instruct模型已在IBM watsonx.ai上線，這是IBM集成的端到端企業(yè)AI開發(fā)工作室。你可以在Granite Playground上嘗試Granite 3.3 Instruct 8B，并輕松實驗開啟和關閉“思考”功能。

Granite Speech 3.3 8B以及所有新發(fā)布的Granite模型和LoRA適配器都可以在Hugging Face上找到。部分Instruct模型也可以通過平臺合作伙伴（按字母順序排列）LMStudio、Ollama和Replicate獲得，未來還會有更多合作伙伴加入。

結語

Granite 3.3標志著IBM在開發(fā)強大、模塊化和透明的AI系統(tǒng)方面邁出了重要一步。此次發(fā)布針對語音處理、邏輯推理和檢索增強生成的關鍵需求，提供了基于可衡量改進的技術升級。aLoRA的引入為內(nèi)存高效的檢索提供了支持，對填充中間任務的支持以及多語言語音建模的改進，使得Granite 3.3成為企業(yè)環(huán)境中的一個技術上合理的選擇。其開源發(fā)布進一步鼓勵了在更廣泛的AI社區(qū)中的采用、實驗和持續(xù)開發(fā)。

本文轉載自公眾號Halo咯咯作者：基咯咯

原文鏈接：??https://mp.weixin.qq.com/s/_nCfhfkmJZicJniTocU3Dw??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

已于2025-4-23 10:14:08修改

贊

回復

舉報

回復

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

51CTO

51CTO博客

51CTO學堂

IBM Granite 3.3：語音識別、推理增強與RAG的完美融合原創(chuàng)

語音識別與翻譯：Granite Speech 3.3 8B的突破

架構與設計

改進方向

文本推理與FIM能力：Granite 3.3 Instruct的升級

填充中間（FIM）

增強推理

通過LoRA適配器優(yōu)化RAG

RAG幻覺檢測

RAG查詢重寫

RAG引用生成

RAG可回答性預測

不確定性預測

組合使用RAG LoRA

IBM Granite的未來展望

開始使用Granite 3.3

結語

目錄

国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

51CTO

51CTO博客

51CTO學堂

IBM Granite 3.3：語音識別、推理增強與RAG的完美融合 原創(chuàng)

語音識別與翻譯：Granite Speech 3.3 8B的突破

架構與設計

改進方向

文本推理與FIM能力：Granite 3.3 Instruct的升級

填充中間（FIM）

增強推理

通過LoRA適配器優(yōu)化RAG

RAG幻覺檢測

RAG查詢重寫

RAG引用生成

RAG可回答性預測

不確定性預測

組合使用RAG LoRA

IBM Granite的未來展望

開始使用Granite 3.3

結語

目錄

IBM Granite 3.3：語音識別、推理增強與RAG的完美融合原創(chuàng)