FaceLift – Adobe 联合加州大学推出的单张图像到 3D 头部模型生成技术
FaceLift是Adobe和加州大学默塞德分校推出的单图像...
MineWorld是微软研究院开源的基于《我的世界》(Minecraft)的实时交互式世界模型,基于视觉-动作自回归Transformer架构,将游戏场景和动作转化为离散的token ID,通过下一个token预测进行训练。模型开发了并行解码算法,可实现每秒4至7帧的生成速度,支持实时互动。MineWorld在视频质量、可控性和推理速度上均优于现有模型,如Oasis。