? ? ?

使用魔搭開發(fā)自己的語音AI：從入門到精通

投稿用戶 ? 2023年4月25日上午9:37 ? 科研百科 ? 閱讀 170

簡介：語音AI是最早從實(shí)驗室走向應(yīng)用的AI技術(shù)，其發(fā)展史就是不斷創(chuàng)新、解鎖應(yīng)用的歷史，從1995年 Dragon Dictate的桌面孤立詞語音識別，到2011年蘋果的手機(jī)語音助手SIRI，再到當(dāng)下百花齊放的各種智能語音應(yīng)用。

作者 | 袁斌、鄢志杰阿里達(dá)摩院語音實(shí)驗室

來源 | 阿里開發(fā)者公眾號

語音AI是最早從實(shí)驗室走向應(yīng)用的AI技術(shù)，其發(fā)展史就是不斷創(chuàng)新、解鎖應(yīng)用的歷史，從1995年 Dragon Dictate的桌面孤立詞語音識別，到2011年蘋果的手機(jī)語音助手SIRI，再到當(dāng)下百花齊放的各種智能語音應(yīng)用。

由于技術(shù)的快速進(jìn)步，以及各大云計算廠商以API形式提供的語音AI能力，目前開發(fā)者已能便捷使用語音AI去搭建應(yīng)用。但API也存在局限性，不少開發(fā)者希望獲得更多、更底層的把控力，希望對API背后AI模型有更深入的了解；不只是開發(fā)應(yīng)用，還可以開發(fā)模型；不只是調(diào)用API接口，還可以通過對模型的訓(xùn)練或微調(diào)（fine-tuning），以提升實(shí)際應(yīng)用效果。

為了讓所有滿懷創(chuàng)意的開發(fā)者實(shí)現(xiàn)更高水平的創(chuàng)新，在最近推出的魔搭社區(qū)ModelScope上，阿里達(dá)摩院首批開源開放了40多個語音AI模型，公有云上廣受歡迎的付費(fèi)模型這次也免費(fèi)開放。模型背后，我們提供了訓(xùn)練或微調(diào)腳本工具鏈，含蓋語音AI各個主要方向。

下面，就讓我們以語音合成、語音識別、語音信號處理為例，來展示如何玩轉(zhuǎn)魔搭社區(qū)的語音AI模型。

一、語音合成

語音合成是將文字作為輸入，讓AI能夠?qū)⑽淖洲D(zhuǎn)換為語音的原子能力。例如，我們希望AI朗讀如下的一段文字：

“最當(dāng)初，他只是覺得賽倫看莫穎兒的眼光溫柔得超過一般父女或是師徒的感情，在觀察了一段時間過后，他才逐漸確定賽倫似乎很在乎這個少女。”

在魔搭社區(qū)，可以有兩種方式來進(jìn)行語音合成模型的體驗：

第一種方式是使用模型詳情頁的“在線體驗”功能，以最直觀的方式對每個語音合成模型進(jìn)行體驗。這對模型的初步體驗和把玩品鑒非常高效。

接下來以“SambertHifigan語音合成-中文-多人預(yù)訓(xùn)練-16k”模型為例，介紹如何進(jìn)行在線體驗。

模型鏈接查看文末[1]。

使用魔搭開發(fā)自己的語音AI：從入門到精通

第二種方式是使用編程，通過簡單的幾行代碼，就可以實(shí)現(xiàn)自己的語音合成功能，并集成嵌入到具體的應(yīng)用中去。這種方式適合選定喜歡的發(fā)音人后、進(jìn)行深度的應(yīng)用開發(fā)。

魔搭社區(qū)提供了免費(fèi)的CPU算力（不限額）和GPU算力（NVIDIA-V100-16G 限額100小時），供開發(fā)者進(jìn)行使用，下面我們使用Notebook開發(fā)環(huán)境來簡單演示如何實(shí)現(xiàn)使用代碼進(jìn)行語音合成。

讓我們選擇CPU服務(wù)，稍等幾分鐘服務(wù)啟動，我們點(diǎn)擊“查看NoteBook”，進(jìn)入開發(fā)環(huán)境，選擇啟動一個python腳本。

使用魔搭開發(fā)自己的語音AI：從入門到精通

這些語音AI模型都配備了代碼示例，我們可以在模型詳情頁的代碼示例中找到：

使用魔搭開發(fā)自己的語音AI：從入門到精通

將該代碼進(jìn)行復(fù)制并粘貼至notebook的python腳本當(dāng)中，我們可以將代碼中‘待合成文本’字符串替換成想要的合成本文，并執(zhí)行程序，便可以下載生成的音頻文件進(jìn)行試聽。

使用魔搭開發(fā)自己的語音AI：從入門到精通

這項語音合成技術(shù)背后是達(dá)摩院的顯式韻律聲學(xué)模型SAMBERT以及Hifi-GAN聲碼器的結(jié)合。

在語音合成領(lǐng)域，目前以FastSpeech2類似的Non-Parallel模型為主流，它針對基頻（pitch）、能量（energy）和時長（duration）三種韻律表征分別建模。但是，該類模型普遍存在一些效果和性能上的問題：獨(dú)立建模時長、基頻、能量，忽視了其內(nèi)在聯(lián)系；完全非自回歸的網(wǎng)絡(luò)結(jié)構(gòu)，無法滿足工業(yè)級實(shí)時合成需求；幀級別基頻和能量預(yù)測不穩(wěn)定…

因此達(dá)摩院設(shè)計了SAMBERT，一種基于Non-Parallel結(jié)構(gòu)的改良版TTS模型，它具有以下優(yōu)點(diǎn)：

建立時長與基頻、能量的依賴關(guān)系，并使用自回歸結(jié)構(gòu)的時長預(yù)測模塊，提升預(yù)測韻律的自然度和多樣性;
Decoder使用PNCA自回歸結(jié)構(gòu)，降低帶寬要求，支持CPU實(shí)時合成;
音素級別建模基頻、能量，提高容錯率;
以預(yù)訓(xùn)練BERT語言模型為編碼器，在小規(guī)模數(shù)據(jù)上效果更好。

使用魔搭開發(fā)自己的語音AI：從入門到精通

二、語音識別

在魔搭社區(qū)上，達(dá)摩院語音實(shí)驗室開放了核心的語音識別模型“Paraformer語音識別-中文-通用-16k-離線”，這是即將大規(guī)模商業(yè)部署的下一代模型，其訓(xùn)練數(shù)據(jù)規(guī)模達(dá)到5萬小時以上，通過對非自回歸語音識別模型技術(shù)的改進(jìn)，不僅達(dá)到當(dāng)前類Transformer自回歸模型的語音識別準(zhǔn)確率，而且在推理效率上有10倍的加速比提升。

模型鏈接參考文末[2]。

使用魔搭開發(fā)自己的語音AI：從入門到精通

在魔搭社區(qū)中，語音識別模型與語音合成一樣，提供Demo和Notebook兩種方式進(jìn)行效果體驗，操作方法請參見上文，不再贅述。

除了開放最先進(jìn)的Paraformer模型之外，語音實(shí)驗室還免費(fèi)開放了當(dāng)紅的語音識別模型UniASR，它在公有云上提供商業(yè)化的服務(wù)，廣受歡迎。UniASR模型含蓋了中、英、日、俄等語種，支持8k/16k采樣率，可以滿足開發(fā)者不同場景的開發(fā)需求。

模型鏈接參考文末[3]。

使用魔搭開發(fā)自己的語音AI：從入門到精通

三、語音信號處理

信號處理也是語音處理的一個重要的技術(shù)組成分支，達(dá)摩院開源了基于深度學(xué)習(xí)的回聲殘余抑制算法。

模型名：DFSMN回聲消除-單麥單參考-16k

模型鏈接參考文末[4]。

從用戶體驗角度，一個理想的回聲消除算法要達(dá)到以下效果：遠(yuǎn)端單講(far end single talk)時零回聲泄露；近端單講(near end single talk)時語音無損；雙端同時講話時可以互相聽清，也即雙講(double talk)通透。目前在開源的信號處理算法當(dāng)中，雙講時的效果都比較差強(qiáng)人意。這是因為目前的開源信號處理算法無法有效區(qū)分錄音信號中的回聲信號和近端語音信號，而且真實(shí)通話中雙講出現(xiàn)的時間一般較短、時間占比也很低，所以從策略上為了確保零回聲泄露，只好犧牲雙講時的效果。

點(diǎn)擊查看原文，獲取更多福利！

https://developer.aliyun.com/article/1103557?groupCode=alitech?utm_content=g_1000365848

版權(quán)聲明：本文內(nèi)容由阿里云實(shí)名注冊用戶自發(fā)貢獻(xiàn)，版權(quán)歸原作者所有，阿里云開發(fā)者社區(qū)不擁有其著作權(quán)，亦不承擔(dān)相應(yīng)法律責(zé)任。具體規(guī)則請查看《阿里云開發(fā)者社區(qū)用戶服務(wù)協(xié)議》和《阿里云開發(fā)者社區(qū)知識產(chǎn)權(quán)保護(hù)指引》。如果您發(fā)現(xiàn)本社區(qū)中有涉嫌抄襲的內(nèi)容，填寫侵權(quán)投訴表單進(jìn)行舉報，一經(jīng)查實(shí)，本社區(qū)將立刻刪除涉嫌侵權(quán)內(nèi)容。

版權(quán)聲明：本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)，該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容，請發(fā)送郵件至舉報，一經(jīng)查實(shí)，本站將立刻刪除。

贊 (0)

投稿用戶

企業(yè)享受研發(fā)費(fèi)用稅前100％加計扣除政策，這組問答請收好（企業(yè)享受研發(fā)費(fèi)用稅前加計扣除數(shù)）

上一篇 2023年4月25日上午9:29

全球最大軟件開發(fā)平臺GitHub尋求在華開設(shè)子公司

下一篇 2023年4月25日上午9:45

科研項目論證過程

科研項目論證過程科研項目的論證是項目成功的關(guān)鍵之一。在論證過程中，科學(xué)家需要對項目進(jìn)行深入的研究和分析，并確保項目的科學(xué)性和可行性。本文將介紹科研項目論證過程的一般過程和關(guān)鍵要素…

科研百科 2025年3月6日
20
?科研項目管理總結(jié)，調(diào)查研究

他表明，盡管就科學(xué)領(lǐng)域的概化（絕對意義上的)而言，他仍堅持這一觀點(diǎn),但他現(xiàn)在也認(rèn)同，另有兩種類推的類型適用于社會科學(xué)領(lǐng)域，即統(tǒng)計類推和“模糊”類推。一項調(diào)查可以單純?yōu)榱藵M足某些公…

科研百科 2022年12月11日
1340
礦石研究報告(礦山石料廠科研項目名稱)

礦山石料廠科研項目名稱：在礦山石料廠中，開采和處理石頭是一項非常重要的任務(wù)。這些石頭通常來自自然環(huán)境，例如山峰和山谷，它們需要大量的能源和化學(xué)物質(zhì)來處理。因此，研究如何高效地開采…

科研百科 2024年8月4日
290
國土學(xué)院科研項目立項

國土學(xué)院科研項目立項隨著國家對于土地管理的重視，國土學(xué)院科研項目立項也越來越受到關(guān)注。作為一所擁有豐富土地管理實(shí)踐教學(xué)資源的學(xué)院，我們一直致力于推動土地管理領(lǐng)域的科學(xué)研究和技術(shù)創(chuàng)…

科研百科 2025年3月21日
20
工程項目系統(tǒng)管理課程

工程項目系統(tǒng)管理課程是一門非常重要的課程，旨在幫助項目經(jīng)理和項目管理人員掌握如何有效地管理工程項目。在這門課程中，我們將學(xué)習(xí)到如何制定項目計劃，如何管理項目進(jìn)度，如何協(xié)調(diào)項目團(tuán)隊，…

科研百科 2025年7月17日
10
大學(xué)同專業(yè)博士生對本科生有幫助嗎

大學(xué)同專業(yè)博士生對本科生的幫助在大學(xué)校園中，博士生和本科生是兩個完全不同的群體。博士生是受過專門訓(xùn)練和研究的人，而本科生則是剛剛進(jìn)入大學(xué)學(xué)習(xí)的人。盡管博士生和本科生在學(xué)術(shù)和專業(yè)上…

科研百科 2024年10月7日
170
科技項目中,以獲得學(xué)位(碩士、博士)為培養(yǎng)目標(biāo)的證明材料怎么寫

科技項目中，以獲得學(xué)位(碩士、博士)為培養(yǎng)目標(biāo)的證明材料隨著科技的不斷發(fā)展，許多科技公司都在追求更高的學(xué)術(shù)水平和技能，為員工提供更高的教育背景和職業(yè)發(fā)展機(jī)會。在這樣的背景下，許多…

科研百科 2024年10月11日
280
黨建專業(yè)基礎(chǔ)知識不夠

黨建專業(yè)基礎(chǔ)知識不夠作為一名黨員，一名共產(chǎn)黨的分支，黨建專業(yè)基礎(chǔ)知識是不可或缺的一部分。只有具備一定的黨建專業(yè)基礎(chǔ)知識，才能更好地履行黨員的職責(zé)，更好地為人民群眾服務(wù)。本文將介紹…

科研百科 2024年12月5日
30
陜建集團(tuán)項目管理系統(tǒng)

陜建集團(tuán)項目管理系統(tǒng) 陜建集團(tuán)是一家擁有強(qiáng)大實(shí)力和歷史的建筑公司，其業(yè)務(wù)范圍涵蓋了住宅、商業(yè)、文化、教育等多個領(lǐng)域。作為一家大型建筑公司，陜建集團(tuán)必須擁有一套高效、完善的項目管理系…

科研百科 2025年6月13日
20
獸醫(yī)熱點(diǎn)科研項目名單

獸醫(yī)熱點(diǎn)科研項目名單隨著獸醫(yī)行業(yè)的不斷發(fā)展，許多新的獸醫(yī)熱點(diǎn)科研項目正在不斷涌現(xiàn)。以下是一些目前最受關(guān)注的話題。 1. 基因編輯技術(shù) 基因編輯技術(shù)是指通過修改人類或動物的基因組，…

科研百科 2025年6月1日
20

使用魔搭開發(fā)自己的語音AI：從入門到精通

一、語音合成

二、語音識別

三、語音信號處理

相關(guān)推薦