OmniAudio – 阿里通义推出的空间音频生成模型
OmniAudio 是阿里巴巴通义实验室语音团队推出的从36...
ViewCrafter 是北大和港中文联合腾讯提出的一种先进的视频扩散模型,能从单个或少量图像中合成高保真的新视图。结合了视频扩散模型的生成能力和基于点的3D表示,精确控制相机姿态生成高质量视频帧。通过迭代视图合成策略和相机轨迹规划,ViewCrafter 能逐步扩展3D线索,生成更广泛的新视图。在多个数据集上展现了强大的泛化能力和性能,为实时渲染的沉浸式体验和场景级文本到3D生成等应用提供了新的可能性。