2026年4月15日,谷歌推出Gemini 3.1 Flash TTS——其最新的文本轉(zhuǎn)語音模型。這款模型在可控性、表現(xiàn)力和音質(zhì)上均有顯著提升,能幫助開發(fā)者、企業(yè)與用戶打造下一代AI語音應(yīng)用。即日起,該模型已在Gemini API、Google AI Studio(開發(fā)者預(yù)覽版)、Vertex AI(企業(yè)預(yù)覽版),以及面向Workspace用戶的Google Vids平臺同步上線。
在Artificial Analysis TTS排行榜中,Gemini 3.1 Flash TTS以1211 Elo分的成績躋身“最具吸引力象限”。它支持多揚(yáng)聲器對話場景,覆蓋70余種語言,還能通過自然語言指令實現(xiàn)細(xì)粒度的創(chuàng)意控制。新加入的音頻標(biāo)簽功能,允許用戶嵌入自然語言命令來調(diào)整語音的風(fēng)格、節(jié)奏與表達(dá)效果。
開發(fā)者可在Google AI Studio中配置場景方向、揚(yáng)聲器特性,并無縫導(dǎo)出相關(guān)參數(shù);早期測試者對模型的可控性和表現(xiàn)力給出了積極反饋。此外,所有生成的音頻都帶有SynthID水印,可有效檢測AI生成內(nèi)容,助力防范虛假信息傳播。






快報