Coqui釋出零樣本文字轉語音模型YourTTS,較傳統TTS模型使用更少訓練資料集

5{icon} {views}

人工智慧新創Coqui開發了新的低資源零樣本文字轉語音(Text-to-Speech,TTS)模型,具有合成多種語言語音的能力,重要的是,該模型能夠利用共同學習技術,從各語言的訓練資料集轉換知識,來有效降低需要的訓練資料量,像是能以大量英語資料集進行共同學習,在YourTTS中添加巴西葡萄牙語。

端到端深度學習模型不停地發展,現在文字轉語音已經能夠產生令人驚豔的自然聲音,研究人員表示,過去這些模型所使用的資料集,都需要單一說話者在專業環境中,錄製20到40小時的大量聲音。這種方式並非適用於每個人,難以擴展至多種語言和說話者,更別說主流研究通常不會針對低資源語言,因此也就更難普及。

Coqui所釋出的YourTTS模型,便是要來解決這些問題,其主要有幾項特性,第一是能以單一模型合成多種語言的語音,第二是以單個模型,合成具有不同聲音的語音,第三則是零樣本學習,在不重新訓練模型的情況下,調整模型來合成新說話者的語音。用戶還能透過微調YourTTS預先訓練的模型,學習新的說話者或是語言,YourTTS也能將語音轉換成另外一種語言,或是改變特定語音的聲音。

Coqui擴展其早前的研究成果SC-GlowTTS,開發出YourTTS。YourTTS使用一種稱為VITS的模型作為主幹,該模型在端到端文字轉語音上使用對抗學習和變分推理(Variational Inference)。研究人員還在YourTTS上,使用比過去更大的文字編碼器,YourTTS會使用單獨訓練的說話者編碼器模型,來計算說話者的嵌入向量,並將說話者的資訊傳遞給模型的其他部分。

信泰電機生產製作:鋁殼電阻、繞線電阻、剎車電阻、煞車電阻

臭氧機的滅菌效果如何?

多加科技公司,從事水處理、加水站設計規劃營運,以臭氧機、紫外線燈作水質淨化、殺菌設備,因臭氧機具強大氧化、殺菌、除臭能力,省電、無耗材費用,深受水處理業者採用

建南和著重於工業用機械手臂、工業型無線充電裝置、精密加工元件等產品之經銷、代理、進出口貿易

票選推薦煮婦最愛手壓封口機,省荷包不犧牲品質

意信臻以 品質、信用、親切、迅速、優質售後服務,為公司的營運宗旨。

研究人員解釋,VITS是一種特殊的TTS模型,因為結合使用了不同的深度學習技術,能夠實現高品質的自然聲音輸出,其主要建立在GlowTTS模型之上,而GlowTTS模型的特性是輕巧,善於處理長句子,收斂速度也很快,但是其最大的缺點,是難以輸出自然且具表現力的聲音。而研究人員改進GlowTTS發展出VITS,能夠產生更高傳真度和準確韻律的語音。

研究人員將YourTTS,與AttentronZS和SC-GlowTTS產生的結果相比,YourTTS在平均主觀意見得分(Mean Opinion Score,MOS)更高,而且在許多情況,YourTTS的表現比資料集中真實語音剪輯更好。

在零樣本語音轉換上,無論是英語語音轉換成葡萄牙語,還是男性和女性聲音互換,都有良好的MOS值。經實驗,YourTTS只需要說話者20秒的語音,就足夠調整模型,以說話者的聲音產生高品質的語音輸出。

現在已經可以在瀏覽器直接試用YourTTS,用戶只要提供自己的語音錄音,並且選擇目標語言,YourTTS就能夠以用戶的聲音,以目標語言念出用戶所輸入的文字。由於這項技術存在被濫用的可能性,Coqui正研究各種方法來防止TTS被用於惡意目的上,而在YourTTS的範例中,用戶所產生的語音會添加背景音樂,避免被用於意料之外的用途上。

https://www.ithome.com.tw/news/148709

示波器探測執行效能最佳化的8大秘訣

瀚誼科技致力於提供示波器多元化的專業測試和解決方案,範圍涵括無線通訊系統、RF量測儀器設備、高頻配件、電子元件

【找人才】台北塑膠射出成型工廠徵選技師,薪資優,福利佳

射出成型機按外形特徵可分為立式、臥式、直角式、旋轉式和偏心式等多種,目前以臥式最為常用。

選擇好的茶葉罐,有效地保持茶葉的鮮度與風味!

茶葉罐的一般有錫製、鐵製、陶瓷、玻璃、紙製等,其中以選用有雙層蓋的鐵製彩色茶罐和長頸錫瓶為佳,用陶瓷器貯存茶葉,則以口小腹大者為宜。