阿里推出全新多模态大模型Qwen3.5-Omni，性能超越谷歌Gemini 3.1 Pro

3月31日，阿里正式发布新一代全模态大模型Qwen3.5-Omni。该模型在音视频理解、识别、交互等215项权威测试中表现全球领先，整体能力超越Gemini-3.1 Pro，成为当前最强的全模态大模型之一。
Qwen3.5-Omni能精准理解并生成音视频内容的结构化描述，支持113种语言和方言的语音识别与生成；首次实现“音视频Vibe Coding”——用户只需打开摄像头，对着草图或画面口述需求（包括复杂逻辑），模型即可自动生成带完整UI的App、网页或游戏原型代码，真正实现“动动嘴就能编程”。
模型采用混合注意力MoE架构，基于海量文本、图像及超1亿小时音视频数据进行原生多模态训练，可同时处理文字、图片、语音、视频等多种输入，并输出对应形式的内容。在视听交互（如DailyOmni、QualcommInteractive）、嘈杂环境语音识别（WenetSpeech）、多语言语音合成（30语种）等关键任务中，均大幅领先同类模型。
目前，公众可在Qwen Chat免费体验；开发者和企业可通过阿里云百炼平台调用Qwen3.5-Omni的Plus、Flash、Light三种API版本，广泛用于短视频、直播、游戏、自媒体等领域。每百万Tokens输入成本不足0.8元，仅为Gemini-3.1 Pro的十分之一。

【版权提示】信息来自于互联网，不代表外贸内参立场，内容仅供网友参考学习。如发现本站内容存在版权问题，烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至[email protected]，我们将及时沟通与处理。如若转载请联系原出处。

阿里推出全新多模大模型 qwen3 omni 性能超越谷歌 gemini 3 1 pro

阿里推出全新多模态大模型Qwen3.5-Omni，性能超越谷歌Gemini 3.1 Pro

活动推荐

多语言建站助力外贸获客

携手共创，期待您的声音

精选文章

阿里推出全新多模态大模型Qwen3.5-Omni，性能超越谷歌Gemini 3.1 Pro

外贸快讯

活动推荐

多语言建站助力外贸获客

携手共创，期待您的声音

精选文章

订阅外贸资讯