ACTalker – 港科大联合腾讯、清华推出的端到端视频扩散框架

4个月前发布 108 00

ACTalker 是用于生成逼真说话人头部视频的端到端视频扩散框架。支持单信号或多信号控制，如音频、表情等。核心架构包括并行 Mamba 结构，通过多个分支利用不同驱动信号分别控制面部区域，基于门控机制和掩码丢弃策略，实现灵活且自然的视频生成。在 CelebV-HQ 数据集上，ACTalker 的 Sync-C 和 Sync-D 分数表现...

收录时间：

2025-12-16

打开网站手机查看

ACTalker – 港科大联合腾讯、清华推出的端到端视频扩散框架

ACTalker – 港科大联合腾讯、清华推出的端到端视频扩散框架

ACTalker 是用于生成逼真说话人头部视频的端到端视频扩散框架。支持单信号或多信号控制，如音频、表情等。核心架构包括并行 Mamba 结构，通过多个分支利用不同驱动信号分别控制面部区域，基于门控机制和掩码丢弃策略，实现灵活且自然的视频生成。在 CelebV-HQ 数据集上，ACTalker 的 Sync-C 和 Sync-D 分数表现优异，分别为 5.317 和 7.869，FVD-Inc 分数为 232.374，展现了良好的音频同步和视频质量。

官网：https://github.com/harlanhong/ACTalker

立即打开官网

数据统计

相关导航

GPDiT – 清华北大联合阶跃星辰等推出的视频生成模型

GPDiT（Generative Pre-trained A...

LVCD – 腾讯联合香港城市大学推出为动漫视频线稿上色的AI框架

LVCD（Large Video Color Diffusi...

EchoMimicV2 – 阿里推出的开源数字人项目，能生成完整数字人半身动画

EchoMimicV2是阿里蚂蚁集团推出的半身人体 AI数字...

MineWorld – 微软研究院开源的实时交互式世界模型

MineWorld是微软研究院开源的基于《我的世界》（Min...

DynVFX – AI视频增强技术，将新动态内容与原始视频无缝融合

DynVFX是创新的视频增强技术，能根据简单的文本指令将动态...

TimeSuite – 上海AI Lab推出的提升MLLMs在长视频理解处理的设计框架

TimeSuite是上海AI Lab推出的新型框架，能提升多...

拍我AI – 爱诗科技推出的AI视频生成平台，PixVerse国内版

拍我AI是爱诗科技推出的 PixVerse 的国内版，是强大...

CAT4D – 谷歌和哥伦比亚大学等高校推出的单目视频创建4D场景方法

CAT4D是Google DeepMind、哥伦比亚大学和加...