StoryTeller – 字节、上海交大、北大共同推出的全自动长视频描述生成一致系统
StoryTeller是字节跳动、上海交通大学和北京大学共同...
PhysGen3D 是创新的框架,能将单张图像转换为交互式的 3D 场景,生成具有物理真实感的视频。结合了基于图像的几何和语义理解以及基于物理的模拟,通过从单张图像中推断物体的 3D 形状、姿态、物理和光照属性,创建出以图像为中心的数字孪生。再基于物质点方法(MPM)模拟物体的反事实物理行为,最终将动态效果无缝整合到原始图像中,生成视觉逼真的结果。