国产精品电影_久久视频免费_欧美日韩国产激情_成年人视频免费在线播放_日本久久亚洲电影_久久都是精品_66av99_九色精品美女在线_蜜臀a∨国产成人精品_冲田杏梨av在线_欧美精品在线一区二区三区_麻豆mv在线看

微軟NaturalSpeech語(yǔ)音合成推出第三代,網(wǎng)友驚呼:超自然!實(shí)至名歸

人工智能 新聞
多年來(lái),微軟持續(xù)關(guān)注語(yǔ)音領(lǐng)域的技術(shù)研究與產(chǎn)品研發(fā),為了合成高質(zhì)量自然的人類(lèi)語(yǔ)音,NaturalSpeech 研究項(xiàng)目(https://aka.ms/speechresearch)應(yīng)運(yùn)而生。

文本到語(yǔ)音合成(Text to Speech,TTS)作為生成式人工智能(Generative AI 或 AIGC)的重要課題,在近年來(lái)取得了飛速發(fā)展。在大模型(LLM)時(shí)代下,語(yǔ)音合成技術(shù)能夠擴(kuò)展大模型的語(yǔ)音交互能力,更是受到了廣泛的關(guān)注。

多年來(lái),微軟持續(xù)關(guān)注語(yǔ)音領(lǐng)域的技術(shù)研究與產(chǎn)品研發(fā),為了合成高質(zhì)量自然的人類(lèi)語(yǔ)音,NaturalSpeech 研究項(xiàng)目(https://aka.ms/speechresearch)應(yīng)運(yùn)而生。

為了實(shí)現(xiàn)這個(gè)宏偉遠(yuǎn)景,NaturalSpeech 項(xiàng)目將目標(biāo)拆分成幾個(gè)階段:

1)第一階段,在單個(gè)說(shuō)話(huà)人上取得媲美人類(lèi)的語(yǔ)音質(zhì)量。為此,研究團(tuán)隊(duì)在 2022 年推出了 NaturalSpeech 1,在 LJSpeech 語(yǔ)音合成數(shù)據(jù)集上達(dá)到了人類(lèi)錄音水平的音質(zhì)

2)第二階段,高效地實(shí)現(xiàn)像人類(lèi)一樣多樣化的語(yǔ)音合成,包含不同的說(shuō)話(huà)人、韻律、情感、風(fēng)格等。為此,研究團(tuán)隊(duì)在 2023 年推出了 NaturalSpeech 2,利用擴(kuò)散模型(Diffusion Model)實(shí)現(xiàn)了零樣本(Zero-Shot)的語(yǔ)音合成。

在 2024 年,該研究團(tuán)隊(duì)聯(lián)合中科大、港中大(深圳)、浙大等機(jī)構(gòu)聯(lián)合發(fā)布了全新的系統(tǒng):NaturalSpeech 3,它從語(yǔ)音數(shù)據(jù)的 “表示” 和 “建模” 兩個(gè)角度出發(fā),利用創(chuàng)新的屬性分解擴(kuò)散模型和屬性分解語(yǔ)音神經(jīng)編解碼器 FACodec,通過(guò) Data/Model Scaling,實(shí)現(xiàn)了零樣本語(yǔ)音合成的重要突破,極大地向第二階段目標(biāo)邁進(jìn)。

3)當(dāng)前,該聯(lián)合研究團(tuán)隊(duì)正在研究更自然的語(yǔ)音合成,最終實(shí)現(xiàn)像人類(lèi)一樣自然且隨意的發(fā)聲。

圖片

NaturalSpeech 3 論文鏈接: https://arxiv.org/abs/2403.03100

NaturalSpeech 3 Demo 演示: https://speechresearch.github.io/naturalspeech3

NaturalSpeech 3 論文一經(jīng)推出就在國(guó)內(nèi)外社交媒體上引發(fā)熱議,推特網(wǎng)友盛贊:NaturalSpeech 3 是目前最好的零樣本 TTS 模型,標(biāo)題里的「Natural」可以說(shuō)是當(dāng)之無(wú)愧。

圖片

NaturalSpeech 3 可以?xún)H僅通過(guò) 3s 的提示音頻在沒(méi)有見(jiàn)過(guò)的說(shuō)話(huà)人上實(shí)現(xiàn)效果驚艷音色克隆

NaturalSpeech 3 不僅能夠?qū)崿F(xiàn)逼真的音色模型,還能夠非常好的還原韻律,情感等特征。

可以感覺(jué)到,NaturalSpeech 3 生成的結(jié)果在音質(zhì)和音色方面和真實(shí)音頻幾乎沒(méi)有差別,并且非常好的復(fù)刻了提示音頻中包含的情緒等語(yǔ)音信息。

NaturalSpeech 3 還可以對(duì)不同的屬性使用不同的提示實(shí)現(xiàn)更為可控的生成,例如可以使用一個(gè)語(yǔ)速較快的人的聲音作為 duration 的提示,使得生成的結(jié)果同樣具有較快的語(yǔ)速。duration prompt,機(jī)器之心,3秒

可以發(fā)現(xiàn),NaturalSpeech 3 的音色仍然和其他屬性的 prompt 保持一致,但是跟隨了 duration prompt 較快語(yǔ)速。

NaturalSpeech 3 的成功秘訣來(lái)自于基于屬性分解的 Codec+Diffusion 建模范式以及 Data/Model Scaling。傳統(tǒng) TTS 系統(tǒng)因訓(xùn)練數(shù)據(jù)集有限,難以支持高質(zhì)量的零樣本語(yǔ)音合成。而最近的研究通過(guò)擴(kuò)大語(yǔ)料庫(kù),雖有所進(jìn)步,但在聲音質(zhì)量、相似性和韻律方面仍未達(dá)到理想水平。

NaturalSpeech 3 提出創(chuàng)新的屬性分解擴(kuò)散模型和屬性分解神經(jīng)語(yǔ)音編碼器 FACodec,通過(guò)將語(yǔ)音分解成不同屬性的子空間并根據(jù)不同的提示(prompt)分別生成,有效地降低了語(yǔ)音建模難度,從而大大提高了語(yǔ)音合成的質(zhì)量和自然度。

與此同時(shí),NaturalSpeech 3 通過(guò)將訓(xùn)練數(shù)據(jù)擴(kuò)展到 20 萬(wàn)小時(shí)(這是迄今為止公開(kāi)的研究工作中使用的最大規(guī)模數(shù)據(jù))以及將模型大小擴(kuò)展到 1B(2B 甚至更大的模型正在訓(xùn)練中),進(jìn)一步提升語(yǔ)音合成的質(zhì)量和自然度。

圖片

屬性分解神經(jīng)語(yǔ)音編解碼器(FACodec): NaturalSpeech 3 提出一種創(chuàng)新的屬性分解神經(jīng)語(yǔ)音編解碼器(Codec)負(fù)責(zé)將復(fù)雜的語(yǔ)音波形轉(zhuǎn)換成代表不同語(yǔ)音屬性(內(nèi)容、韻律、音色和聲學(xué)細(xì)節(jié))的解耦子空間,并從這些屬性重構(gòu)高質(zhì)量的語(yǔ)音波形。

FACodec 通過(guò)使用語(yǔ)音編碼器、音色提取器、三個(gè)分解向量量化器(分別針對(duì)內(nèi)容、韻律和聲學(xué)細(xì)節(jié))、一個(gè)語(yǔ)音解碼器以及多種訓(xùn)練技術(shù)的組合,實(shí)現(xiàn)了這一過(guò)程。這種設(shè)計(jì)促進(jìn)了語(yǔ)音屬性間的解耦,簡(jiǎn)化了 TTS 對(duì)語(yǔ)音表示的建模過(guò)程。

圖片

NaturalSpeech 3的屬性分解神經(jīng)語(yǔ)音編解碼器FACodec

目前語(yǔ)音開(kāi)源項(xiàng)目 Amphion 已經(jīng)支持 NaturalSpeech 3 的核心組件 FACodec,并且已發(fā)布預(yù)訓(xùn)練模型。FACodec 作為 NaturalSpeech 3 的核心,能夠?qū)?fù)雜的語(yǔ)音波形轉(zhuǎn)換成表示內(nèi)容、韻律、音色和聲學(xué)細(xì)節(jié)等屬性的解耦表示,并從這些屬性重構(gòu)高質(zhì)量的語(yǔ)音波形。

這一技術(shù)能夠顯著降低語(yǔ)音的建模難度,研究人員可以利用 FACodec 復(fù)現(xiàn) NaturalSpeech 3 或應(yīng)用到語(yǔ)音合成、語(yǔ)音轉(zhuǎn)換等各式各樣的下游生成任務(wù)

FACodec 預(yù)訓(xùn)練模型: https://huggingface.co/spaces/amphion/naturalspeech3_facodec

FACodec 代碼: https://github.com/open-mmlab/Amphion/tree/main/models/codec/ns3_codec

屬性分解擴(kuò)展模型:NaturalSpeech 3 設(shè)計(jì)了多個(gè)擴(kuò)散模型模塊來(lái)分別建模音素持續(xù)時(shí)間、韻律、內(nèi)容、聲學(xué)細(xì)節(jié)(其中韻律,內(nèi)容,聲學(xué)細(xì)節(jié)共享一個(gè)Diffusion模型),而不需要單獨(dú)對(duì)音色進(jìn)行建模,因?yàn)橐羯卣骺梢灾苯訌?prompt 中提取。此外,每一個(gè)擴(kuò)散模型的 prompt 僅與該模塊的語(yǔ)音因素相關(guān),實(shí)現(xiàn)了對(duì)各個(gè)模塊的可控性生成。

NaturalSpeech 3的屬性分解擴(kuò)散模型

SOTA 的語(yǔ)音合成效果:經(jīng)過(guò)大量的實(shí)驗(yàn)驗(yàn)證,NaturalSpeech 3 在語(yǔ)音質(zhì)量、相似性、韻律和可懂度方面均超越了現(xiàn)有最先進(jìn)的 TTS 系統(tǒng)。特別是,在 LibriSpeech 測(cè)試集上,與真實(shí)語(yǔ)音相比,NaturalSpeech 3 在 CMOS 評(píng)分上達(dá)到了相當(dāng)甚至更好的語(yǔ)音質(zhì)量;在語(yǔ)音相似度方面,實(shí)現(xiàn)了新的最佳水平;在韻律建模上也展現(xiàn)了顯著的改進(jìn)。

圖片

NaturalSpeech 3和其它TTS系統(tǒng)比較

圖片

NaturalSpeech3在不同模型大小和數(shù)據(jù)量下的比較

FACodec的擴(kuò)展用途: NaturalSpeech 3 中提出的FACodec不僅僅在非自回歸語(yǔ)音合成中取得了很好的結(jié)果,而且進(jìn)一步證明了其在自回歸語(yǔ)音合成范式中的顯著效果。作者們使用經(jīng)典的自回歸架構(gòu)VALL-E,相比原本的基于RVQ的Codec,在音質(zhì)、相似度、穩(wěn)定性上都有非常顯著的提升!這進(jìn)一步說(shuō)明了基于屬性分解的語(yǔ)音表征的巨大空間。

Data/Model Scaling:值得一提的是,NaturalSpeech 3 還將模型拓展到 1B 大小、數(shù)據(jù)量拓展到 20 萬(wàn)小時(shí)左右,在提升合成語(yǔ)音質(zhì)量,相似度,可理解性方等面的令人期待的結(jié)果,展示了較強(qiáng)的 Scaling 能力。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2013-12-09 09:56:42

Vidyo

2025-08-29 02:55:00

2009-04-11 21:45:24

2023-07-27 16:51:05

微軟語(yǔ)音模型人工智能

2012-05-31 14:13:05

2015-08-24 09:35:18

微軟

2009-10-14 09:35:11

Linux發(fā)行版操作系統(tǒng)

2024-04-16 07:18:54

指標(biāo)平臺(tái)數(shù)倉(cāng)數(shù)智化分析

2014-03-14 11:22:08

Avalon芯片A3233

2015-08-24 09:31:59

微軟

2010-09-28 10:53:07

Cisco WAAS

2010-05-14 15:49:13

2011-10-27 12:17:50

2009-05-22 08:30:46

iPhone移動(dòng)OS蘋(píng)果

2015-10-26 15:40:24

PMC

2021-01-19 09:56:30

AI知識(shí)圖譜

2013-07-24 10:41:33

甲骨文全球大會(huì)2013甲骨文

2011-05-31 16:46:09

投影機(jī)推薦

2018-04-26 20:34:20

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

成人精品久久av网站| 精品国产乱码久久久久久郑州公司 | 亚在线播放中文视频| 韩国毛片一区二区三区| 国产精品一区二区三区精品| 99国产精品免费视频观看| 国产999精品久久久| 日本欧美高清| 欧美中文字幕在线播放| 久久超级碰碰| 欧美激情a在线| 欧美成年网站| 久久久久久久久综合| 999久久久久久久久6666| 两个人的视频www国产精品| 欧美大陆国产| 欧美激情xxxx性bbbb| 午夜影院久久久| 鲁一鲁一鲁一鲁一av| 国产亚洲精品资源在线26u| 各处沟厕大尺度偷拍女厕嘘嘘| 国产suv精品一区二区6| 五十路熟女丰满大屁股| 91视频在线看| 欧美成年人视频在线观看| 久久久不卡影院| 天天操,天天操| 一区二区三区蜜桃网| 欧洲毛片在线| 欧美一级二级在线观看| 成人女同在线观看| 中文字幕日韩精品在线观看| 日韩欧美久久| 国产精品久久久久免费a∨大胸| 99精品美女| 国产精品一区二| 日韩国产欧美视频| 日本a在线天堂| 久久久久久久久久美女| 婷婷六月天丁香| 91国偷自产一区二区开放时间| 91网在线看| 精品国产一区二区三区久久狼黑人 | 中文字幕欧美区| 日本一二三区视频免费高清| 在线国产电影不卡| 中文字幕在线直播| 国a精品视频大全| 91精品国产成人观看| 五月天色一区| 国产日韩欧美综合一区| 羞羞视频在线观看| 亚洲女同精品视频| 国产欧美日韩精品一区二区三区| 久久精品二区| 国产色产综合色产在线视频| 国产视频第一页在线观看| 亚洲欧洲偷拍精品| 精品一区二区三| 一本一本久久a久久精品综合妖精| 国产午夜精品在线观看| 邻居大乳一区二区三区| 亚洲色图欧美制服丝袜另类第一页| 国产精品色呦| 欧美日韩成人一区二区三区| 国产视频一区二区在线观看| 欧美激情在线观看视频| 中文字幕在线视频免费观看| 亚洲第一二三四五区| 精品国产乱子伦一区二区| 国产精品视频入口| 中文字幕高清一区| 色黄网站在线观看| 国产成人精品电影| 国产激情偷乱视频一区二区三区| 一级视频在线观看| 欧美巨猛xxxx猛交黑人97人| 国产欧美一区二区色老头| 99在线免费视频| 亚洲成人黄色网| 欧美少妇xxxx| 又大又硬又爽免费视频| 色老头久久综合| 亚洲啊v在线免费视频| 久久影院理伦片| 一区二区视频在线| 日韩av黄色| 丝袜美腿玉足3d专区一区| 亚洲成人动漫一区| 警花av一区二区三区| 日本视频精品一区| 香蕉成人啪国产精品视频综合网| 成人黄色免费网站| 久久久com| 天天影视涩香欲综合网| 天堂av一区| 国产精品www在线观看| 91精品欧美久久久久久动漫 | 久久中文字幕导航| 超级碰碰视频| 久久精品久久久久久| 欧美好骚综合网| 久草在线国产| 欧美成人黑人xx视频免费观看| 久久九九精品| 亚洲综合婷婷久久| 91精品福利在线一区二区三区 | 日韩中文理论片| eeuss鲁一区二区三区| 91小视频在线免费看| 欧美第一在线视频| 松下纱荣子在线观看| 图片区小说区亚洲| 中文字幕伦理免费在线视频| 色呦呦在线视频| 日韩精品一线二线三线| 欧美视频中文在线看| 91久久国产综合久久91猫猫| 亚洲午夜精品福利| 最近2019年好看中文字幕视频| 欧美一区二区三区影视| 日韩在线视频网| 亚洲第一精品夜夜躁人人爽| 欧美丰满嫩嫩电影| 亚洲色图第三页| 中文字幕亚洲欧美日韩2019| 日韩欧美精品在线观看| 美女视频黄 久久| 伊人久久综合| 青青草国产成人99久久| 欧美特黄一区| 伊人狠狠色j香婷婷综合| 欧美三级午夜理伦三级小说| 日本成人片在线| yellow91字幕网在线| 国产毛片视频| 久久艹在线视频| 色综合激情五月| 亚洲综合另类小说| 亚洲妇熟xxxx妇色黄| 亚洲精品久久7777777| 在线中文字幕第一区| 成a人片在线观看www视频| 成人资源av| 欧美激情精品久久久久久变态| 亚洲欧美日韩区| 狠狠躁夜夜躁人人爽天天天天97| 成人午夜精品在线| 欧美日一区二区三区在线观看国产免| 国产精品极品| 欧美亚洲一级| 日韩精品水蜜桃| 国产ts一区| 日韩久久视频| 日韩三级在线| 不卡一本毛片| 加勒比中文字幕精品| 国内成人免费视频| 日韩美女啊v在线免费观看| 在线观看日韩精品| 亚洲精品一区二区三区影院 | 日本在线观看高清完整版| 国产裸舞福利在线视频合集| 欧美激情第六页| 91九色视频在线| 亚洲综合中文字幕在线| 国产精品我不卡| 日韩欧美亚洲精品| 在线码字幕一区| 精品久久久久久久无码| 国产在线视频资源| 豆花视频一区二区| 一本色道88久久加勒比精品| 欧美影院视频| 青青草伊人久久| 18欧美亚洲精品| 欧美电影一区二区三区| 欧美性受xxxx黑人猛交| 99久re热视频精品98| 黄色片视频在线播放| 无罩大乳的熟妇正在播放| 国产亚洲天堂网| 成人福利片网站| 日本欧美韩国| 欧美影视一区| 国产精品亲子伦对白| 国产suv精品一区二区三区| 久久久久久99精品| 国产欧美一区二区三区沐欲 | 日本免费在线视频不卡一不卡二| 一区视频在线看| 99在线热播精品免费| 欧美性色欧美a在线播放| 九九精品视频在线观看| 成人永久免费| 免费网站在线观看视频| 1234区中文字幕在线观看| 九九综合九九| 天天躁日日躁成人字幕aⅴ| 岛国在线视频免费看|