Oryx – 腾讯联合清华和南洋理工大学推出的多模态大语言模型

4个月前发布 125 00

Oryx是由清华大学、腾讯和南洋理工大学联合推出的多模态大型语言模型（MLLM），基于两项核心创新来处理视觉数据，预训练的OryxViT模型和动态压缩模块。OryxViT将任意分辨率的图像编码为适合LLM的视觉表示，动态压缩模块根据需求在1到16倍之间压缩视觉标记。使Oryx能灵活地处理不同分辨率和时长的视觉输入，无论是高清图像还是超长视...

收录时间：

2025-12-16

打开网站手机查看

Oryx – 腾讯联合清华和南洋理工大学推出的多模态大语言模型

Oryx – 腾讯联合清华和南洋理工大学推出的多模态大语言模型

Oryx是由清华大学、腾讯和南洋理工大学联合推出的多模态大型语言模型（MLLM），基于两项核心创新来处理视觉数据，预训练的OryxViT模型和动态压缩模块。OryxViT将任意分辨率的图像编码为适合LLM的视觉表示，动态压缩模块根据需求在1到16倍之间压缩视觉标记。使Oryx能灵活地处理不同分辨率和时长的视觉输入，无论是高清图像还是超长视频。Oryx在多个视觉-语言基准测试中展现卓越的性能，特别是在空间和时间理解方面。

官网：https://github.com/Oryx-mllm/Oryx

立即打开官网

数据统计

相关导航

The Matrix – 阿里联合港大等多所机构推出的AI基础世界模拟器

The Matrix是与电影同名的首个AI基础世界模拟器，是...

Step-Video-T2V – 阶跃星辰开源的文本到视频模型

Step-Video-T2V 是阶跃星辰团队推出的开源文本...

Qwen2-VL – 阿里巴巴达摩院开源的视觉多模态AI模型

Qwen2-VL是阿里巴巴达摩院开源的视觉多模态AI模型，具...

NVILA – 英伟达推出的视觉语言大模型

NVILA是NVIDIA推出的系列视觉语言模型，能平衡效率和...

KeySync – 帝国理工联合弗罗茨瓦夫大学推出的口型同步框架

KeySync 是帝国理工学院和弗罗茨瓦夫大学推出的用在高分...

3DV-TON – 阿里达摩院联合浙大等推出的视频虚拟试穿框架

3DV-TON（Textured 3D-Guided Con...

Long-VITA – 腾讯优图联合南大、厦大开源的多模态模型

Long-VITA 是腾讯优图实验室、南京大学、厦门大学开源...

V-JEPA 2 – Meta AI开源的世界大模型

V-JEPA 2 是 Meta AI 推出的世界大模型，基于...