Qwen2.5-Omni – 阿里开源的端到端多模态模型

4个月前发布 108 00

Qwen2.5-Omni 是阿里开源的 Qwen 系列旗舰级多模态模型，拥有7B参数，Qwen2.5-Omni具备强大的多模态感知能力，能处理文本、图像、音频和视频输入，支持流式文本生成与自然语音合成输出，能实现实时语音和视频聊天。Qwen2.5-Omni用独特的 Thinker-Talker 架构，Thinker 负责处理和理解多模态输...

收录时间：

2025-12-16

打开网站手机查看

Qwen2.5-Omni – 阿里开源的端到端多模态模型

Qwen2.5-Omni – 阿里开源的端到端多模态模型

Qwen2.5-Omni 是阿里开源的 Qwen 系列旗舰级多模态模型，拥有7B参数，Qwen2.5-Omni具备强大的多模态感知能力，能处理文本、图像、音频和视频输入，支持流式文本生成与自然语音合成输出，能实现实时语音和视频聊天。Qwen2.5-Omni用独特的 Thinker-Talker 架构，Thinker 负责处理和理解多模态输入，生成高级表示和文本，Talker 将表示和文本转化为流畅的语音输出。模型在多模态任务（如 OmniBench）中达到最新水平，全维度远超Google的Gemini-1.5-Pro等同类模型。在单模态任务（如语音识别、翻译、音频理解等）中表现出色。Qwen2.5-Omni在 Qwen Chat 上提供免费体验，模型现已开源，支持开发者和企业免费下载商用，在手机等终端智能硬件上部署运行。

官网：https://github.com/QwenLM/Qwen2.5-Omni

立即打开官网

数据统计

相关导航

天谱乐 – 唱鸭团队推出的首个多模态音乐生成大模型

天谱乐是趣丸科技唱鸭团队推出的全球首个多模态音乐生成大模型...

HistAgent – 普林斯顿联合复旦推出的AI历史研究助手

HistAgent 是普林斯顿大学 AI 实验室与复旦大学历...

Apollo – Meta 联合斯坦福大学推出的大型多模态模型

Apollo是Meta和斯坦福大学合作推出的大型多模态模型...

CustomCrafter – 腾讯联合浙大推出的自定义视频生成框架

CustomCrafter 是腾讯和浙江大学联合提出的自定义...

SynCamMaster – 快手联合浙大、清华等机构推出的多视角视频生成模型

SynCamMaster是浙江大学、快手科技、清华大学和香港...

Light-A-Video – 上海AI Lab联合交大等高校推出的视频重照明方法

Light-A-Video 是上海交通大学、中国科学技术大学...

Pyramid-Flow – 北大、快手、北邮联合开源的AI视频生成模型

Pyramid-Flow是一种先进的视频生成模型，由北京大学...

STAR – 南大、字节、西南大学联合开源的现实世界视频超分辨率框架

STAR是南京大学、字节跳动、西南大学联合推出的，创新的现实...