MultiTalk – 音频驱动的多人对话视频生成框架

4个月前发布 153 00

MultiTalk 是中山大学深圳校区、美团和香港科技大学联合推出的新型音频驱动多人对话视频生成框架。框架根据多声道音频输入、参考图像和文本提示，生成包含人物互动且口型与音频一致的视频。框架推出 Label Rotary Position Embedding (L-RoPE) 方法，有效解决多声道音频与人物绑定的问题，借助部分参数训练...

收录时间：

2025-12-16

打开网站手机查看

MultiTalk – 音频驱动的多人对话视频生成框架

MultiTalk – 音频驱动的多人对话视频生成框架

MultiTalk 是中山大学深圳校区、美团和香港科技大学联合推出的新型音频驱动多人对话视频生成框架。框架根据多声道音频输入、参考图像和文本提示，生成包含人物互动且口型与音频一致的视频。框架推出 Label Rotary Position Embedding (L-RoPE) 方法，有效解决多声道音频与人物绑定的问题，借助部分参数训练和多任务训练策略，保留基础模型的指令跟随能力。MultiTalk 在多个数据集上表现出色，展示了强大的视频生成能力，适用生成卡通、歌唱及遵循指令的视频等多种场景。

官网：https://github.com/MeiGen-AI/MultiTalk

立即打开官网

数据统计

相关导航

VideoRAG – 用于长视频理解的检索增强生成技术

VideoRAG是用于长视频理解的检索增强生成（Retrie...

DiTCtrl – 港中文联合腾讯等机构推出的多提示视频生成方法

DiTCtrl是基于多模态扩散变换器（MM-DiT）架构的多...

EchoMimicV2 – 阿里推出的开源数字人项目，能生成完整数字人半身动画

EchoMimicV2是阿里蚂蚁集团推出的半身人体 AI数字...

GameFactory – 香港大学和快手联合推出的可泛化游戏场景框架

GameFactory 是香港大学和快手科技联合提出的创新框...

Ming-lite-omni – 蚂蚁集团开源的统一多模态大模型

Ming-Lite-Omni是蚂蚁集团开源的统一多模态大模型...

OmniParse – AI数据解析平台，提取和解析任何非结构化数据

OmniParse是数据解析平台，将非结构化数据转换为结构化...

PyVideoTrans – 开源的视频翻译和配音工具，支持多种语言

PyVideoTrans 是开源的视频翻译配音工具，将视频内...

ConceptMaster – 高保真多概念视频定制生成的创新 AI 框架

ConceptMaster是用于多概念视频定制的创新框架，能...