国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

IBM Granite 3.3:語音識別、推理增強與RAG的完美融合 原創(chuàng)

發(fā)布于 2025-4-23 06:57
瀏覽
0收藏

在人工智能的浪潮中,企業(yè)對靈活、高效且透明的模型需求日益增長。然而,現(xiàn)有的解決方案往往難以同時滿足這些要求。開源模型可能缺乏特定領域的功能,而專有系統(tǒng)有時會限制訪問或適應性。這種差距在涉及語音識別、邏輯推理和檢索增強生成(RAG)的任務中尤為明顯,技術碎片化和工具鏈不兼容導致了操作瓶頸。

4月22日,IBM帶來了全新的Granite 3.3,這是一套專為企業(yè)應用設計的開源基礎模型,涵蓋了語音處理、推理能力和檢索機制的升級。Granite Speech 3.3 8B是IBM首個開源的語音轉文本(STT)和自動語音翻譯(AST)模型,它在轉錄準確性和翻譯質(zhì)量上超越了基于Whisper的系統(tǒng)。該模型能夠處理長音頻序列,減少人工切割引入的誤差,提升了在實際場景中的可用性。

語音識別與翻譯:Granite Speech 3.3 8B的突破

Granite Speech 3.3 8B是一個緊湊且成本高效的音頻輸入(和文本輸入)、文本輸出的STT模型,專為企業(yè)應用中處理語音輸入而設計,并針對自動語音識別(ASR)和自動語音翻譯(AST)進行了優(yōu)化。在轉錄任務中,Granite Speech 3.3 8B在多個知名公共數(shù)據(jù)集的測試中,持續(xù)展現(xiàn)出比領先的開源和閉源模型更高的準確性。

IBM Granite 3.3:語音識別、推理增強與RAG的完美融合-AI.x社區(qū)

在翻譯方面,Granite Speech 3.3 8B能夠將英語自動翻譯成多種語言,包括法語、西班牙語、意大利語、德語、葡萄牙語、日語和普通話。在IBM對AST性能的測試中,Granite Speech 3.3 8B在CoVost數(shù)據(jù)集支持的語言上,與OpenAI的GPT-4o和Google的Gemini 2.0 Flash等領先的專有模型保持同步。更多關于翻譯性能的信息可以在模型的Hugging Face模型卡中找到。

架構與設計

從架構上看,Granite Speech 3.3由以下部分組成:

  • 語音編碼器:包含10個Conformer模塊,通過連接時序分類(CTC)在專注于ASR的數(shù)據(jù)集上進行訓練。
  • 語音投影器:這里是一個2層的Query Transformer(Q-former),它將音頻嵌入投影到一個可以被LLM解釋的空間。
  • LLM:即Granite 3.3 8B Instruct,具有128K的上下文長度。
  • LoRA適配器:當存在音頻數(shù)據(jù)時,應用于LLM的查詢和值投影矩陣。

與直接集成語音和文本的單次通過模型不同,Granite Speech 3.3采用兩次通過的設計。例如,要向模型詢問有關音頻文件的問題,需要先調(diào)用轉錄音頻,然后再提示模型查詢轉錄的文本。如果提示中包含“”標記和相應的.wav文件,Granite Speech將激活音頻編碼器、投影器和LoRA適配器。如果沒有,模型將僅以文本模式運行,使用Granite 3.3 Instruct 8B。

這種兩次通過的方法確保了Granite Speech 3.3 8B在文本查詢上的表現(xiàn)與其底層LLM(Granite 3.3 8B Instruct)一致,避免了多模態(tài)模型常見的基于文本的性能下降。只要提供了一個能夠正確服務文本和語音模型的推理平臺,開發(fā)者可以將Granite Speech 3.3 8B視為Granite 3.3 8B Instruct的一個版本,增加了音頻輸入能力。

與傳統(tǒng)的基于Whisper的ASR模型不同,Granite Speech 3.3可以接受任意長度的輸入。在測試中,該模型能夠在H100 80GB GPU上輕松處理一個20分鐘的音頻文件,而不是固定在30秒的窗口。在基于Whisper的模型中,超過最大時長的音頻文件必須被切割成30秒的片段,這通常會在這些30秒切割點附近引入不準確之處。一般來說,你不需要進行的人工切割越少,引入的不準確之處就越少。

盡管Granite Speech 3.3可以處理相當長的音頻輸入,但值得注意的是,該模型尚未針對長音頻數(shù)據(jù)進行微調(diào)。為了保持一致的準確性,建議每個離散音頻輸入單元的時長限制為1分鐘。

改進方向

Granite Speech 3.3只是IBM探索Granite系列音頻能力的開端。正在進行的研究旨在為未來的版本(特別是在Granite 4中)增強Granite Speech,包括:

  • 多語言編碼:目前,Granite Speech 3.3的音頻編碼器僅支持英語。未來的一個重要步驟是開發(fā)能夠處理多種語言并敏感于副語言現(xiàn)象的音頻編碼器,從而實現(xiàn)真正的多語言輸入。
  • 精細化數(shù)據(jù)配方:未來的訓練計劃將納入更多且更高質(zhì)量的訓練數(shù)據(jù),其中針對特定用例的合成數(shù)據(jù)生成將發(fā)揮重要作用。我們還在嘗試額外的微調(diào)和數(shù)據(jù)平衡步驟。
  • 早期模態(tài)融合:我們正在探索實現(xiàn)一個更統(tǒng)一的結構,將音頻特征整合到未來Granite模型的所有訓練階段。
  • 情感檢測:未來的Granite Speech模型將通過訓練我們的聲學編碼器對非詞匯音頻事件更加敏感,從而支持語音情感識別(SER)能力。

文本推理與FIM能力:Granite 3.3 Instruct的升級

Granite 3.3 8B Instruct和Granite 3.3 2B Instruct是IBM最新的僅文本指令調(diào)優(yōu)模型,它們增加了填充中間(FIM)能力,并繼續(xù)完善在Granite 3.2中引入的推理能力。

我們還發(fā)布了它們的基礎模型對應版本——Granite 3.3 8B Base和Granite 3.3 2B Base,它們?nèi)〈薌ranite 3.1的前輩,為開發(fā)者提供了訪問我們FIM能力模型的機會,以便他們進行自己的微調(diào)工作。

填充中間(FIM)

自回歸LLM(通常用于文本生成的LLM)本質(zhì)上是從左到右移動的。它們通過自監(jiān)督學習進行訓練,以迭代預測序列中的下一個標記,基于前面標記的信息,直到序列被認為完成。盡管這種設計適用于各種生成任務,但它在另一種任務上存在不足:根據(jù)前面和后面的標記預測正確的標記。換句話說,傳統(tǒng)的自回歸LLM無法“填充中間”。

要將自回歸模型適應填充中間,需要重新設計訓練任務,以“欺騙”LLM使用其內(nèi)在的左到右預測能力來預測中間的標記。這通常需要將一個樣本段落劃分為前綴(前面的標記)、后綴(后面的標記)和中間(需要通過填充預測的標記),然后重新排列段落,使模型在被要求預測中間標記之前,同時提供前綴和后綴。Granite 3.3利用專用標記,使模型能夠基于前綴和后綴生成內(nèi)容。

FIM有廣泛的應用場景,特別是在編碼任務中,從代碼修復和錯誤連接到重構,再到快速生成樣板代碼,以及啟用函數(shù)參數(shù)或文檔字符串的插入。

增強推理

Granite 3.2的重點是通過思考偏好優(yōu)化(TPO)豐富指令模型的推理能力,以提高它們遵循復雜指令的能力,而不會犧牲一般性能。Granite 3.3 Instruct的重點是在保留這些收益的同時,豐富模型在復雜數(shù)學推理上的表現(xiàn)。

基于更新的Granite 3.3基礎模型,并通過多階段強化學習使用TPO和組相對策略優(yōu)化(GRPO)進行微調(diào),Granite 3.3 Instruct模型在與“推理”能力相關的高技術基準測試中表現(xiàn)出顯著的改進。

IBM Granite 3.3:語音識別、推理增強與RAG的完美融合-AI.x社區(qū)

Granite 3.3 8B在MATH500基準測試中的表現(xiàn)輕松超過了Anthropic的Claude 3.5 Haiku(64.2%)和Meta的Llama 3.1 8B Instruct(44.4%),與24B參數(shù)的Mistral Small 3(70.6%)大致相當,僅略低于Claude 3.5 Sonnet(72.4%)和OpenAI的GPT-4o Mini(72.6%)。

與Granite 3.2 Instruct模型一樣,“思考”功能可以輕松地開啟和關閉,允許開發(fā)者在需要時優(yōu)先考慮增強的推理鏈(CoT),而在不需要時優(yōu)先考慮成本效益和低延遲。

通過LoRA適配器優(yōu)化RAG

為了增強現(xiàn)有的基于Granite的應用,并為下一代性能增強的LoRA適配器的開發(fā)提供信息,IBM還通過Granite Experiments(一個IBM研究用于測試開源想法的游樂場)發(fā)布了5個(主要是)RAG特定的LoRA適配器,用于Granite 3.2 8B Instruct。這些LoRA適配器中的每一個都利用模型的內(nèi)在知識來啟用特定任務,例如重寫檢索查詢或檢測幻覺。

IBM研究開發(fā)了這些“傳統(tǒng)”LoRA適配器,并為每個適配器開發(fā)了使用一種新的低秩適應方法的對應版本,我們稱之為激活LoRA(aLoRA)。與標準LoRA適配器不同,IBM的aLoRA簡單地重用現(xiàn)有的鍵值(KV)緩存,避免了重新計算上下文(或“預填充”)的需要。激活LoRA在生成質(zhì)量上與標準LoRA相當,同時提供了顯著的運行時和計算優(yōu)勢。aLoRA的源代碼可以在這里找到。

RAG幻覺檢測

即使使用了RAG,LLM有時也會產(chǎn)生幻覺。當配備了RAG幻覺檢測LoRA時,模型將提供一個“忠實度分數(shù)”,范圍在0到1之間(以0.1為增量),反映了其輸出與檢索到的文檔中信息的接近程度。較低的忠實度分數(shù)表示更高的幻覺風險。如果問題無法通過可用信息回答,模型將輸出“無法回答”。

RAG查詢重寫

檢索引擎對包含所有相關信息的獨立查詢的響應結果,比對需要對話中早期上下文才能執(zhí)行的查詢的響應結果要好得多。配備了查詢重寫LoRA后,模型將自動將任何非獨立用戶查詢重寫為一個完全自包含的查詢。例如,考慮以下對話:

用戶:“蘋果公司的CEO是誰?”模型:“蒂姆·庫克是蘋果公司的首席執(zhí)行官。”用戶:“微軟呢?”模型會將用戶的第一個查詢原樣傳遞,但將第二個查詢重寫為“微軟公司的CEO是誰?”。在測試中,這種重寫將模型響應的相關性提高了多達21個百分點。

盡管它是為RAG設計的,但查詢重寫并不需要RAG文檔的存在:它也可以用于重寫用戶查詢以用于其他用例,例如工具調(diào)用。

RAG引用生成

當配備了RAG引用生成LoRA時,模型將為其輸出的每一句話生成引用(如果該句子受到任何外部來源的啟發(fā))。每個句子級別的引用不僅注明了引用的來源,還包含了來自引用來源的一組句子,這些句子支持模型的相應輸出句子。

RAG可回答性預測

當配備了RAG可回答性預測LoRA時,模型將確定用戶的問題是否可以使用連接文檔中的信息回答。這種二元分類——“可回答”或“不可回答”——可以用于過濾掉無法回答的問題(減少幻覺)或提示模型以不同的方式重新查詢檢索器。

不確定性預測

對于每個模型輸出,不確定性LoRA(源自MIT-IBM沃森人工智能實驗室的AI模型校準研究)使模型能夠生成一個量化后的“確定性分數(shù)”,范圍從0到9(分別代表5%到95%的確定性)。該分數(shù)本質(zhì)上反映了模型的響應在多大程度上得到了其訓練數(shù)據(jù)中信息的支持。

組合使用RAG LoRA

傳統(tǒng)的RAG涉及單次推理——一個基于特定上下文的簡單提示——產(chǎn)生單個模型輸出。我們建議在利用多個LoRA適配器進行多次推理的工作流程中使用這些LoRA,以產(chǎn)生最終的模型響應。

例如,你可以首先實現(xiàn)查詢重寫,以在必要時快速重寫初始提示,以實現(xiàn)最佳的檢索器準確性。一旦模型使用重寫后的提示生成了檢索增強的響應,你隨后可以實現(xiàn)RAG幻覺檢測,以驗證對檢索到的文檔信息的適當忠實度。如果忠實度分數(shù)低于可接受的閾值,你的工作流程可以指示模型重新采樣響應,直到忠實度分數(shù)超過該閾值。一旦不再檢測到幻覺,你可以啟用RAG引用,為用戶提供最終響應。

這本質(zhì)上類似于RAG的測試時間計算擴展,通過多次推理來改進和豐富模型的最終輸出。我們期待看到開源社區(qū)如何實現(xiàn)和實驗這些新的LoRA適配器。有關RAG LoRA及其對模型性能的影響的更多信息,可以在隨附的技術論文中找到。

IBM Granite的未來展望

IBM研究團隊目前正在積極訓練Granite 4.0,這是Granite架構的重大演變,展示了在速度、上下文長度和容量方面的有希望的提升。盡管具體細節(jié)將在第二季度晚些時候公布,但客戶、合作伙伴和開發(fā)者可以相信,IBM將繼續(xù)致力于開發(fā)小而實用的模型,這些模型可以在低成本和低延遲下運行。

開始使用Granite 3.3

新的Granite 3.3 Instruct模型已在IBM watsonx.ai上線,這是IBM集成的端到端企業(yè)AI開發(fā)工作室。你可以在Granite Playground上嘗試Granite 3.3 Instruct 8B,并輕松實驗開啟和關閉“思考”功能。

Granite Speech 3.3 8B以及所有新發(fā)布的Granite模型和LoRA適配器都可以在Hugging Face上找到。部分Instruct模型也可以通過平臺合作伙伴(按字母順序排列)LMStudio、Ollama和Replicate獲得,未來還會有更多合作伙伴加入。

結語

Granite 3.3標志著IBM在開發(fā)強大、模塊化和透明的AI系統(tǒng)方面邁出了重要一步。此次發(fā)布針對語音處理、邏輯推理和檢索增強生成的關鍵需求,提供了基于可衡量改進的技術升級。aLoRA的引入為內(nèi)存高效的檢索提供了支持,對填充中間任務的支持以及多語言語音建模的改進,使得Granite 3.3成為企業(yè)環(huán)境中的一個技術上合理的選擇。其開源發(fā)布進一步鼓勵了在更廣泛的AI社區(qū)中的采用、實驗和持續(xù)開發(fā)。


本文轉載自公眾號Halo咯咯    作者:基咯咯

原文鏈接:??https://mp.weixin.qq.com/s/_nCfhfkmJZicJniTocU3Dw??


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-4-23 10:14:08修改
收藏
回復
舉報
回復
相關推薦
日本欧美黄色片| 伊人久久综合97精品| 91在线中文字幕| 精品自拍视频| 2020国产精品| 久久综合精品一区| av在线日韩| 成人在线视频一区二区| 51色欧美片视频在线观看| 人人妻人人做人人爽| 亚洲妇熟xxxx妇色黄| 美洲天堂一区二卡三卡四卡视频| 欧美xxxxxxxx| 国产又大又黄又猛| 久久最新网址| 欧美日韩亚洲高清| 毛片在线播放视频| 自拍偷拍欧美一区| 欧美在线观看你懂的| 欧美亚洲另类色图| 天天综合网91| 亚洲在线免费看| av中文资源在线资源免费观看| 成人免费观看视频| 黄色网zhan| 欧美色图国产精品| 国产精品久久久久久一区二区| 国产第一精品| 日韩精品日韩在线观看| 国产极品美女高潮无套久久久| 亚洲精品国产嫩草在线观看| 欧美老人xxxx18| 91在线视频| 欧美精品色综合| 黄色av网址在线免费观看| 欧美专区日韩专区| 一级毛片视频在线观看| 欧美日本一区二区在线观看| aaa日本高清在线播放免费观看| 欧美性色19p| 麻豆传媒视频在线| 亚洲第一精品自拍| 精品久久ai| 欧美激情专区| 成人一区二区三区在线观看| 青青草精品视频在线| 91视频一区二区三区| mm131国产精品| 欧美日韩一区二区在线播放| 日本激情视频在线观看| 亚洲第一福利网站| 久久国产精品色av免费看| 国产91精品最新在线播放| 综合久久综合| 激情视频免费网站| 欧美日韩在线精品一区二区三区激情| а√天堂官网中文在线| 久久免费视频这里只有精品| 外国成人免费视频| 亚洲一区二区在线看| 亚洲国产精品一区二区www在线| 国产黄大片在线观看| 国产一区福利视频| 国产精品久久三区| 北岛玲精品视频在线观看| 久久精品国产综合精品| 亚洲成av人片一区二区梦乃 | 国产在线观看91| 欧美极品少妇xxxxⅹ免费视频| 欧美成人首页| www.亚洲| 欧亚一区二区三区| 秋霞一区二区三区| 免费成人深夜夜行网站视频| 亚洲人成网站777色婷婷| 国产一区二区久久久久| 亚洲精品在线免费看| 日韩欧美国产免费播放| 成人av综合网| 一二三四视频社区在线| 欧美另类高清zo欧美| 亚洲经典一区| 青青草在线视频免费观看| 97在线视频一区| 91丨porny丨蝌蚪视频| 国产精品亚洲一区二区三区在线观看| 国内精品久久久久久久果冻传媒| 欧美亚洲一区三区| 日p在线观看| 色综合色综合色综合色综合色综合| 乱妇乱女熟妇熟女网站| 久久亚洲综合色| 水蜜桃色314在线观看| 亚洲国产精品影院| 可以在线观看的av| 精品亚洲精品福利线在观看| 在线播放一区二区精品视频| 国产精品私拍pans大尺度在线| 91精品动漫在线观看| xxxxxx在线观看| 日韩av在线一区二区| 精品一区二区三区不卡| 国产三区在线观看| 日韩在线电影一区| 日韩精品在线免费| 欧美极品aⅴ影院| 免费视频一区三区| 久草在线免费福利资源| 黑人另类av| 欧美成人一区二区三区在线观看| 亚洲国产一区二区精品专区| 黄色av电影在线播放| 五十路熟女丰满大屁股| 国语对白做受69| 色丁香久综合在线久综合在线观看| 老牛嫩草一区二区三区日本| 曰本一区二区| 久草中文在线观看| 日本888xxxx| 一区二区三区四区五区视频| 欧美亚洲第一页| 亚洲色图美腿丝袜| 欧美性生活影院| 久久一区二区三区四区| 影视一区二区| 超碰在线视屏| 草草久视频在线观看电影资源| 久久精品成人一区二区三区蜜臀| 亚州欧美日韩中文视频| 国产午夜精品视频| 日本精品一区二区三区高清| 国产精品久久久久天堂| 91成人免费在线| 美国欧美日韩国产在线播放| 精品久久精品| 91成人短视频在线观看| 污污视频在线| 国产中文字幕在线视频| 一区二区成人| 欧美福利网站| 久久亚洲国产成人精品无码区| 九色综合日本| 欧美精品欧美精品系列c| 国产主播精品在线| 成人黄色片在线| 成人免费自拍视频| 国产精品444| 国产精品一区二区久久久| 久久的精品视频| 久久久久免费视频| 欧美综合国产精品久久丁香| 午夜精品视频在线| 欧美日韩第一页| www.亚洲人.com| 国产亚洲欧美一区| 激情伦成人综合小说| 亚洲成人在线观看视频| 久久中文字幕电影| 从欧美一区二区三区| 久久久久久久久久久久久夜| 91在线高清观看| 亚洲综合清纯丝袜自拍| 色网站国产精品| 亚洲成色777777在线观看影院| 一区二区欧美在线| 亚洲欧美日韩在线一区| 在线日韩av片| 4k岛国日韩精品**专区| 欧美三级中文字幕| 色香阁99久久精品久久久| 91欧美精品午夜性色福利在线| 在线天堂一区av电影| 又黄又www的网站| 日本在线啊啊| 欧美日本在线| 久久久久久久精| 亚洲成人精品久久久| 国产精品欧美日韩一区二区| 亚洲日本一区二区三区在线不卡| 国产真实伦在线观看| 波多野结衣久久精品| 99精品视频免费| 91福利在线导航| 国产精品久久久亚洲| 成年人看的毛片| 看黄在线观看| 免费看欧美美女黄的网站| 欧美日本乱大交xxxxx| 日本免费久久高清视频| 亚洲一区在线不卡| 久久久久伊人| 国内精品写真在线观看| 欧美一卡在线观看| 裸模一区二区三区免费| 丝袜美腿美女被狂躁在线观看| 久久亚洲精品中文字幕蜜潮电影| 亚洲精品视频在线观看网站| 青青久久av北条麻妃黑人| 亚州黄色一级| 婷婷综合网站|