DragAnything – 快手联合浙大等机构开源的可控视频生成方法
DragAnything 是快手联合浙江大学和新加坡国立大学...
Cosmos-Reason1 是NVIDIA推出的系列多模态大语言模型,模型能生成基于物理现实的响应。Cosmos-Reason1 包含两个模型:Cosmos-Reason1-7B 和 Cosmos-Reason1-56B。模型基于视觉预训练、通用SFT、物理AI SFT和强化学习四个阶段的训练,结合视频输入和文本提示,能输出具有长推理链的响应,在物理常识和具身推理基准测试中表现出色,显著优于其他同类模型。模型定义了物理常识和具身推理的本体论,构建相应的基准测试,评估多模态LLMs的物理AI推理能力。