LanDiff – 浙大联合月之暗面推出的文本到视频生成混合框架

1个月前发布 27 00

LanDiff是用于高质量的 文本到视频 (T2V)生成的创新混合框架,结合了自回归语言模型(LLM)和扩散模型(Diffusion Model)的优势,通过粗到细的生成方式,有效克服了单一方法在语义理解和视觉质量上的局限性。在VBench T2V基准测试中取得了85.43的高分,超越了包括13B的Hunyuan Video在内的多个开源...

收录时间:
2025-12-16
LanDiff – 浙大联合月之暗面推出的文本到视频生成混合框架LanDiff – 浙大联合月之暗面推出的文本到视频生成混合框架

LanDiff是用于高质量的 文本到视频 (T2V)生成的创新混合框架,结合了自回归语言模型(LLM)和扩散模型(Diffusion Model)的优势,通过粗到细的生成方式,有效克服了单一方法在语义理解和视觉质量上的局限性。在VBench T2V基准测试中取得了85.43的高分,超越了包括13B的Hunyuan Video在内的多个开源和商业模型。

官网:https://arxiv.org/pdf/2503.04606


立即打开官网

数据统计

相关导航