Ola – 清华联合腾讯等推出的全模态语言模型

4个月前发布 99 00

Ola是清华大学、腾讯 Hunyuan 研究团队和新加坡国立大学 S-Lab 合作开发的全模态语言模型。通过渐进式模态对齐策略，逐步扩展语言模型支持的模态，从图像和文本开始，再引入语音和视频数据，实现对多种模态的理解。Ola 的架构支持全模态输入，包括文本、图像、视频和音频，能同时处理这些输入。Ola 设计了逐句解码方案用于流式语音生成...

收录时间：

2025-12-16

打开网站手机查看

Ola – 清华联合腾讯等推出的全模态语言模型

Ola – 清华联合腾讯等推出的全模态语言模型

Ola是清华大学、腾讯 Hunyuan 研究团队和新加坡国立大学 S-Lab 合作开发的全模态语言模型。通过渐进式模态对齐策略，逐步扩展语言模型支持的模态，从图像和文本开始，再引入语音和视频数据，实现对多种模态的理解。Ola 的架构支持全模态输入，包括文本、图像、视频和音频，能同时处理这些输入。Ola 设计了逐句解码方案用于流式语音生成，提升交互体验。

官网：https://github.com/Ola-Omni/Ola

立即打开官网

数据统计

相关导航

Social Media Agent – AI社交媒体内容管理工具，输入URL自动生成帖子

Social Media Agent是智能的社交媒体内容管理...

Motionshop – 阿里推出的AI角色动画项目，可替换视频人物为3D

Motionshop是阿里巴巴智能计算研究院（XR实验室和T...

PySpur – 开源 AI 代理构建工具，拖拽式构建 AI 工作流

PySpur 是开源的轻量级可视化 AI 智能体工作流构建器...

Ruyi – 图森未来推出的图生视频大模型

Ruyi是图森未来推出的图生视频大模型，专为在消费级显卡上运...

StableAnimator – 复旦联合微软等机构推出的端到端身份一致性视频扩散框架

StableAnimator是复旦大学、微软亚洲研究院、虎牙...

MetaHuman-Stream – 实时交互流式AI数字人技术

MetaHuman-Stream 是一项前沿的实时交互流式A...

AtomoVideo – 阿里推出的高保真图像到视频生成框架

AtomoVideo是由阿里巴巴的研究团队提出的一个高保真图...

VILA-U – 融合多模态理解和生成的统一基础模型

VILA-U是集成视频、图像、语言理解和生成的统一基础模型...