3月31日,阿里正式发布新一代全模态大模型Qwen3.5-Omni。该模型在音视频理解、识别、交互等215项权威测试中表现全球领先,整体能力超越Gemini-3.1 Pro,成为当前最强的全模态大模型之一。
Qwen3.5-Omni能精准理解并生成音视频内容的结构化描述,支持113种语言和方言的语音识别与生成;首次实现“音视频Vibe Coding”——用户只需打开摄像头,对着草图或画面口述需求(包括复杂逻辑),模型即可自动生成带完整UI的App、网页或游戏原型代码,真正实现“动动嘴就能编程”。
模型采用混合注意力MoE架构,基于海量文本、图像及超1亿小时音视频数据进行原生多模态训练,可同时处理文字、图片、语音、视频等多种输入,并输出对应形式的内容。在视听交互(如DailyOmni、QualcommInteractive)、嘈杂环境语音识别(WenetSpeech)、多语言语音合成(30语种)等关键任务中,均大幅领先同类模型。
目前,公众可在Qwen Chat免费体验;开发者和企业可通过阿里云百炼平台调用Qwen3.5-Omni的Plus、Flash、Light三种API版本,广泛用于短视频、直播、游戏、自媒体等领域。每百万Tokens输入成本不足0.8元,仅为Gemini-3.1 Pro的十分之一。