VITRON – Skywork AI 联合新加坡国立、南洋理工推出的像素级视觉大型语言模型

4个月前发布 115 00

VITRON是Skywork AI、新加坡国立大学和南洋理工大学联合推出的像素级视觉大型语言模型（LLM），能全面理解和处理静态图像与动态视频，对图像和视频进行理解、生成、分割和编辑。VITRON结合前端的视觉编码器和后端的视觉专家系统，支持从视觉理解到视觉生成的多种任务。VITRON基于混合方法传递信息，结合离散文本指令和连续信号嵌入...

收录时间：

2025-12-16

打开网站手机查看

VITRON – Skywork AI 联合新加坡国立、南洋理工推出的像素级视觉大型语言模型

VITRON – Skywork AI 联合新加坡国立、南洋理工推出的像素级视觉大型语言模型

VITRON是Skywork AI、新加坡国立大学和南洋理工大学联合推出的像素级视觉大型语言模型（LLM），能全面理解和处理静态图像与动态视频，对图像和视频进行理解、生成、分割和编辑。VITRON结合前端的视觉编码器和后端的视觉专家系统，支持从视觉理解到视觉生成的多种任务。VITRON基于混合方法传递信息，结合离散文本指令和连续信号嵌入，实现精确的功能调用，并设计跨任务协同模块，增强不同视觉任务间的协同效应。

官网：https://github.com/SkyworkAI/Vitron

立即打开官网

数据统计

相关导航

DriveDreamer4D – 基于世界模型增强4D驾驶场景重建效果的框架

DriveDreamer4D是用在提升自动驾驶场景4D重建质...

Wan2.1 – 阿里开源的AI视频生成大模型

Wan2.1是阿里云开源的 AI视频生成大模型，具备强大的...

HourVideo – 李飞飞和吴佳俊团队推出的长视频理解基准数据集

HourVideo是斯坦福大学李飞飞和吴佳俊团队推出的长视频...

AI Dev Gallery – 微软推出面向Windows开发者本地运行AI模型的开源工具

AI Dev Gallery是微软推出的开源AI工具包和示例...

Pix2Gif – 微软推出的静态图像转动态GIF的扩散模型

Pix2Gif是由微软研究院的研究人员提出的一个基于运动引导...

Clapper – 免费开源的可视化AI视频编辑工具

Clapper 是一款免费开源的可视化AI视频编辑工具，由 ...

Still-Moving – DeepMind推出的AI视频生成框架

Still-Moving是DeepMind推出的AI视频生成...

Social Media Agent – AI社交媒体内容管理工具，输入URL自动生成帖子

Social Media Agent是智能的社交媒体内容管理...