亚洲精品无码乱码成人|最近中文字幕免费大全|日韩欧美卡一卡二卡新区|熟妇性饥渴一区二区三区|久久久久无码精品国产AV|欧美日韩国产va在线观看|久久精品一本到99热动态图|99国产精品欧美一区二区三区

您現(xiàn)在的位置是: 汽車 > > 正文

趣丸科技聯(lián)合港中大(深圳)開源語音大模型MaskGCT,刷新全球多項SOTA

時間:2024-11-02 14:30:10 來源:中國網(wǎng) 發(fā)布者:DN032

10月24日,趣丸科技宣布與香港中文大學(深圳)聯(lián)合研發(fā)的語音大模型“MaskGCT”正式開源,面向全球用戶開放使用。區(qū)別于傳統(tǒng)TTS模型,該模型采用掩碼生成模型與語音表征解耦編碼的創(chuàng)新范式,在聲音克隆、跨語種合成、語音控制等任務中展現(xiàn)出卓越能。

據(jù)介紹,MaskGCT在三個TTS基準數(shù)據(jù)集上都達到了SOTA效果,能超過當前最先進的同類模型,某些指標甚至超過人類水。顯著特點如下:

1、秒級超逼真的聲音克隆:提供3秒音頻樣本即可復刻人類、動漫、“耳邊細語”等任意音色,且能完整復刻語調、風格和情感。

2、更精細可控的語音生成:可靈活調整生成語音的長度、語速和情緒,支持通過編輯文本編輯語音,并保持韻律、音色等方面的極度一致。

3、高質量多語種語音數(shù)據(jù)集:訓練于香港中文大學(深圳)和趣丸科技等機構聯(lián)合推出的10萬小時數(shù)據(jù)集Emilia,是全球最大且最為多樣的高質量多語種語音數(shù)據(jù)集之一,精通中英日韓法德6種語言的跨語種合成。

據(jù)介紹,MaskGCT(Masked Generative Codec Transformer)是一個大規(guī)模的零樣本TTS模型,采用非自回歸掩碼生成Transformer,無需文本與語音的對齊監(jiān)督和音素級持續(xù)時間預測。其技術突破在于采用掩碼生成模型與語音表征解耦編碼的創(chuàng)新范式。實驗表明,MaskGCT在語音質量、相似度和可理解方面優(yōu)于當前最先進的TTS模型,并且在模型規(guī)模和訓練數(shù)據(jù)量增加時表現(xiàn)更佳,同時能夠控制生成語音的總時長。MaskGCT已在香港中文大學(深圳)與上海人工智能實驗室聯(lián)合開發(fā)的開源系統(tǒng)Amphion發(fā)布。

該模型研發(fā)團隊在語音領域擁有深厚的研究積累和原創(chuàng)成果。這主要依托趣丸科技十年深耕音頻技術領域和億級高質量語音用戶的服務經(jīng)驗,以及香港中文大學(深圳)國際一流水的師資隊伍。早在今年5月份,趣丸科技就與香港中文大學(深圳)宣布共建聯(lián)合實驗室,針對人工智能音頻大模型相關的前沿課題進行研究,旨在突破行業(yè)難題,促進產(chǎn)學研深度融合,打造技術領先的生成式音頻大模型,填補業(yè)界空白。

目前,MaskGCT在短劇出海、數(shù)字人、智能助手、有聲讀物、輔助教育等領域擁有豐富的應用場景。為了加快落地應用,在安全合規(guī)下,趣丸科技打造了多語種速譯智能視聽臺“趣丸千音”。一鍵上傳視頻即可快速翻譯成多語種版本,并實現(xiàn)字幕修復與翻譯、語音翻譯、唇音同步等功能。該產(chǎn)品進一步革新視頻翻譯制作流程,大幅降低過往昂貴的人工翻譯成本和冗長的制作周期,成為影視、游戲、短劇等內容出海的理想選擇臺。

標簽: 趣丸科 音大 多項

搶先讀

相關文章

熱文推薦

精彩放送

關于我們| 聯(lián)系我們| 投稿合作| 法律聲明| 廣告投放

版權所有© 2011-2023  產(chǎn)業(yè)研究網(wǎng)  m.www-332159.com

所載文章、數(shù)據(jù)僅供參考.本站不作任何非法律允許范圍內服務!

聯(lián)系我們:39 60 29 14 2 @qq.com

皖ICP備2022009963號-13