Qwen3.5-Omni能精准理解并生成音视频内容的结构化描述,支持113种语言和方言的语音识别与生成;首次实现“音视频Vibe Coding”——用户只需打开摄像头,对着草图或画面口述需求(包括复杂逻辑),模型即可自动生成带完整UI的App、网页或游戏原型代码,真正实现“动动嘴就能编程”。
模型采用混合注意力MoE架构,基于海量文本、图像及超1亿小时音视频数据进行原生多模态训练,可同时处理文字、图片、语音、视频等多种输入,并输出对应形式的内容。在视听交互(如DailyOmni、QualcommInteractive)、嘈杂环境语音识别(WenetSpeech)、多语言语音合成(30语种)等关键任务中,均大幅领先同类模型。
目前,公众可在Qwen Chat免费体验;开发者和企业可通过阿里云百炼平台调用Qwen3.5-Omni的Plus、Flash、Light三种API版本,广泛用于短视频、直播、游戏、自媒体等领域。每百万Tokens输入成本不足0.8元,仅为Gemini-3.1 Pro的十分之一。
【版权提示】信息来自于互联网,不代表外贸内参立场,内容仅供网友参考学习。如发现本站内容存在版权问题,烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至[email protected],我们将及时沟通与处理。如若转载请联系原出处。