編譯/VR陀螺
近日,Meta發(fā)布了最新的AI音頻生成模型“Audiobox”。該模型以Meta 6月發(fā)布的Voicebox框架為基礎(chǔ)開發(fā),能生成各種環(huán)境及風格的語音、音效,同時整合了生成、編輯能力,以及多種輸入機制,增強了對不同應用場景的聲音控制能力。
圖源:Meta
在Meta看來,Audiobox是第一個可接受語音及文字描述來改造聲音的模型。通過Audiobox,用戶可以運用自然語言文字提示描述想要的聲音或語音類型,例如可輸入“流水環(huán)境中的鳥叫聲”等文字信息生成場景音效,或是輸入“高聲調(diào)、快節(jié)奏講話的年輕女性”生成人聲。 此外,用戶還可以輸入人聲及文字信息,合成在指定環(huán)境下帶有情緒起伏的一段對話。
Audiobox目前已經(jīng)開放向特定研究人員及學術(shù)界試用,以測試模型質(zhì)量及安全倫理性,未來幾周后還將通過網(wǎng)頁開放試用申請。
來源:ai.meta
投稿/爆料:tougao@youxituoluo.com
稿件/商務(wù)合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
元宇宙數(shù)字產(chǎn)業(yè)服務(wù)平臺
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息