Gen2Act – 谷歌、卡内基梅隆、斯坦福联合推出生成人类视频引导机器人操作策略
Gen2Act是由谷歌、卡内基梅隆大学和斯坦福大学共同推出的...
ShotAdapter是Adobe联合UIUC推出的用在文本到多镜头 视频生成 的框架,基于微调预训练的 文本到视频 模型,引入过渡标记和局部注意力掩码策略,实现对多镜头视频的生成。框架能确保角色在不同镜头中的身份一致性,支持用户用特定的文本提示控制镜头的数量、时长和内容。ShotAdapter推出从单镜头视频数据集中构建多镜头视频数据集的新方法,基于采样、分割和拼接视频片段来生成训练数据。