簡介: 語音AI是最早從實(shí)驗(yàn)室走向應(yīng)用的AI技術(shù),其發(fā)展史就是不斷創(chuàng)新、解鎖應(yīng)用的歷史,從1995年 Dragon Dictate的桌面孤立詞語音識(shí)別,到2011年蘋果的手機(jī)語音助手SIRI,再到當(dāng)下百花齊放的各種智能語音應(yīng)用。
作者 | 袁斌、鄢志杰 阿里達(dá)摩院語音實(shí)驗(yàn)室
來源 | 阿里開發(fā)者公眾號(hào)
語音AI是最早從實(shí)驗(yàn)室走向應(yīng)用的AI技術(shù),其發(fā)展史就是不斷創(chuàng)新、解鎖應(yīng)用的歷史,從1995年 Dragon Dictate的桌面孤立詞語音識(shí)別,到2011年蘋果的手機(jī)語音助手SIRI,再到當(dāng)下百花齊放的各種智能語音應(yīng)用。
由于技術(shù)的快速進(jìn)步,以及各大云計(jì)算廠商以API形式提供的語音AI能力,目前開發(fā)者已能便捷使用語音AI去搭建應(yīng)用。但API也存在局限性,不少開發(fā)者希望獲得更多、更底層的把控力,希望對(duì)API背后AI模型有更深入的了解;不只是開發(fā)應(yīng)用,還可以開發(fā)模型;不只是調(diào)用API接口,還可以通過對(duì)模型的訓(xùn)練或微調(diào)(fine-tuning),以提升實(shí)際應(yīng)用效果。
為了讓所有滿懷創(chuàng)意的開發(fā)者實(shí)現(xiàn)更高水平的創(chuàng)新,在最近推出的魔搭社區(qū)ModelScope上,阿里達(dá)摩院首批開源開放了40多個(gè)語音AI模型,公有云上廣受歡迎的付費(fèi)模型這次也免費(fèi)開放。模型背后,我們提供了訓(xùn)練或微調(diào)腳本工具鏈,含蓋語音AI各個(gè)主要方向。
下面,就讓我們以語音合成、語音識(shí)別、語音信號(hào)處理為例,來展示如何玩轉(zhuǎn)魔搭社區(qū)的語音AI模型。
一、語音合成
語音合成是將文字作為輸入,讓AI能夠?qū)⑽淖洲D(zhuǎn)換為語音的原子能力。例如,我們希望AI朗讀如下的一段文字:
“最當(dāng)初,他只是覺得賽倫看莫穎兒的眼光溫柔得超過一般父女或是師徒的感情,在觀察了一段時(shí)間過后,他才逐漸確定賽倫似乎很在乎這個(gè)少女。”
在魔搭社區(qū),可以有兩種方式來進(jìn)行語音合成模型的體驗(yàn):
第一種方式是使用模型詳情頁的“在線體驗(yàn)”功能,以最直觀的方式對(duì)每個(gè)語音合成模型進(jìn)行體驗(yàn)。這對(duì)模型的初步體驗(yàn)和把玩品鑒非常高效。
接下來以“SambertHifigan語音合成-中文-多人預(yù)訓(xùn)練-16k”模型為例,介紹如何進(jìn)行在線體驗(yàn)。
模型鏈接查看文末[1]。
第二種方式是使用編程,通過簡單的幾行代碼,就可以實(shí)現(xiàn)自己的語音合成功能,并集成嵌入到具體的應(yīng)用中去。這種方式適合選定喜歡的發(fā)音人后、進(jìn)行深度的應(yīng)用開發(fā)。
魔搭社區(qū)提供了免費(fèi)的CPU算力(不限額)和GPU算力(NVIDIA-V100-16G 限額100小時(shí)),供開發(fā)者進(jìn)行使用,下面我們使用Notebook開發(fā)環(huán)境來簡單演示如何實(shí)現(xiàn)使用代碼進(jìn)行語音合成。
讓我們選擇CPU服務(wù),稍等幾分鐘服務(wù)啟動(dòng),我們點(diǎn)擊“查看NoteBook”,進(jìn)入開發(fā)環(huán)境,選擇啟動(dòng)一個(gè)python腳本。
這些語音AI模型都配備了代碼示例,我們可以在模型詳情頁的代碼示例中找到:
將該代碼進(jìn)行復(fù)制并粘貼至notebook的python腳本當(dāng)中,我們可以將代碼中‘待合成文本’字符串替換成想要的合成本文,并執(zhí)行程序,便可以下載生成的音頻文件進(jìn)行試聽。
這項(xiàng)語音合成技術(shù)背后是達(dá)摩院的顯式韻律聲學(xué)模型SAMBERT以及Hifi-GAN聲碼器的結(jié)合。
在語音合成領(lǐng)域,目前以FastSpeech2類似的Non-Parallel模型為主流,它針對(duì)基頻(pitch)、能量(energy)和時(shí)長(duration)三種韻律表征分別建模。但是,該類模型普遍存在一些效果和性能上的問題:獨(dú)立建模時(shí)長、基頻、能量,忽視了其內(nèi)在聯(lián)系;完全非自回歸的網(wǎng)絡(luò)結(jié)構(gòu),無法滿足工業(yè)級(jí)實(shí)時(shí)合成需求;幀級(jí)別基頻和能量預(yù)測不穩(wěn)定…
因此達(dá)摩院設(shè)計(jì)了SAMBERT,一種基于Non-Parallel結(jié)構(gòu)的改良版TTS模型,它具有以下優(yōu)點(diǎn):
- 建立時(shí)長與基頻、能量的依賴關(guān)系,并使用自回歸結(jié)構(gòu)的時(shí)長預(yù)測模塊,提升預(yù)測韻律的自然度和多樣性;
- Decoder使用PNCA自回歸結(jié)構(gòu),降低帶寬要求,支持CPU實(shí)時(shí)合成;
- 音素級(jí)別建模基頻、能量,提高容錯(cuò)率;
- 以預(yù)訓(xùn)練BERT語言模型為編碼器,在小規(guī)模數(shù)據(jù)上效果更好。
二、語音識(shí)別
在魔搭社區(qū)上,達(dá)摩院語音實(shí)驗(yàn)室開放了核心的語音識(shí)別模型“Paraformer語音識(shí)別-中文-通用-16k-離線”,這是即將大規(guī)模商業(yè)部署的下一代模型,其訓(xùn)練數(shù)據(jù)規(guī)模達(dá)到5萬小時(shí)以上,通過對(duì)非自回歸語音識(shí)別模型技術(shù)的改進(jìn),不僅達(dá)到當(dāng)前類Transformer自回歸模型的語音識(shí)別準(zhǔn)確率,而且在推理效率上有10倍的加速比提升。
模型鏈接參考文末[2]。
在魔搭社區(qū)中,語音識(shí)別模型與語音合成一樣,提供Demo和Notebook兩種方式進(jìn)行效果體驗(yàn),操作方法請(qǐng)參見上文,不再贅述。
除了開放最先進(jìn)的Paraformer模型之外,語音實(shí)驗(yàn)室還免費(fèi)開放了當(dāng)紅的語音識(shí)別模型UniASR,它在公有云上提供商業(yè)化的服務(wù),廣受歡迎。UniASR模型含蓋了中、英、日、俄等語種,支持8k/16k采樣率,可以滿足開發(fā)者不同場景的開發(fā)需求。
模型鏈接參考文末[3]。
三、語音信號(hào)處理
信號(hào)處理也是語音處理的一個(gè)重要的技術(shù)組成分支,達(dá)摩院開源了基于深度學(xué)習(xí)的回聲殘余抑制算法。
模型名:DFSMN回聲消除-單麥單參考-16k
模型鏈接參考文末[4]。
從用戶體驗(yàn)角度,一個(gè)理想的回聲消除算法要達(dá)到以下效果:遠(yuǎn)端單講(far end single talk)時(shí)零回聲泄露;近端單講(near end single talk)時(shí)語音無損;雙端同時(shí)講話時(shí)可以互相聽清,也即雙講(double talk)通透。目前在開源的信號(hào)處理算法當(dāng)中,雙講時(shí)的效果都比較差強(qiáng)人意。這是因?yàn)槟壳暗拈_源信號(hào)處理算法無法有效區(qū)分錄音信號(hào)中的回聲信號(hào)和近端語音信號(hào),而且真實(shí)通話中雙講出現(xiàn)的時(shí)間一般較短、時(shí)間占比也很低,所以從策略上為了確保零回聲泄露,只好犧牲雙講時(shí)的效果。
點(diǎn)擊查看原文,獲取更多福利!
https://developer.aliyun.com/article/1103557?groupCode=alitech?utm_content=g_1000365848
版權(quán)聲明:本文內(nèi)容由阿里云實(shí)名注冊(cè)用戶自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,阿里云開發(fā)者社區(qū)不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。具體規(guī)則請(qǐng)查看《阿里云開發(fā)者社區(qū)用戶服務(wù)協(xié)議》和《阿里云開發(fā)者社區(qū)知識(shí)產(chǎn)權(quán)保護(hù)指引》。如果您發(fā)現(xiàn)本社區(qū)中有涉嫌抄襲的內(nèi)容,填寫侵權(quán)投訴表單進(jìn)行舉報(bào),一經(jīng)查實(shí),本社區(qū)將立刻刪除涉嫌侵權(quán)內(nèi)容。
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請(qǐng)發(fā)送郵件至 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。