Google 推出全新文字转语音模型 Gemini-TTS,这是 Gemini 3.1 系列的重要成员。它能生成自然、高保真、富有表现力的语音,并支持通过简单提示词调节语气、节奏和情绪,比如让语音更亲切、更沉稳,或在对话中精准控制停顿与情感变化。
该模型支持约 70 种语言,包括中文(普通话)、英语、西班牙语、德语、日语等,可自动识别文本语种,无需手动设置即可输出对应语言的语音。开发者只需调用一个统一接口,就能为有声书、播客、智能客服、语音助手、教育软件等应用快速提供多语种语音服务。
Gemini-TTS 还能与 Gemini 3.1 系列其他音频模型协同工作,在实时语音场景中发挥更强能力——例如电话沟通、会议翻译、车载导航等,既保持低延迟,又可通过文字指令和音频标记精细调控语音输出,使 AI 的语音交互更接近真人。