LLIA – 美团推出的音频驱动肖像视频生成框架

4个月前发布 142 00

LLIA（Low-Latency Interactive Avatars）是美团公司推出的基于扩散模型的实时音频驱动肖像视频生成框架。框架基于音频输入驱动虚拟形象的生成，支持实现低延迟、高保真度的实时交互。LLIA用可变长度视频生成技术，减少初始视频生成的延迟，结合一致性模型训练策略和模型量化技术，显著提升推理速度。LLIA支持用类别...

收录时间：

2025-12-16

打开网站手机查看

LLIA – 美团推出的音频驱动肖像视频生成框架

LLIA – 美团推出的音频驱动肖像视频生成框架

LLIA（Low-Latency Interactive Avatars）是美团公司推出的基于扩散模型的实时音频驱动肖像视频生成框架。框架基于音频输入驱动虚拟形象的生成，支持实现低延迟、高保真度的实时交互。LLIA用可变长度视频生成技术，减少初始视频生成的延迟，结合一致性模型训练策略和模型量化技术，显著提升推理速度。LLIA支持用类别标签控制虚拟形象的状态（如说话、倾听、空闲）及面部表情的精细控制，为用户提供流畅且自然的交互体验。

官网：https://github.com/MeiGen-AI/llia

立即打开官网

数据统计

相关导航

Mochi 1 – Genmo推出的开源高质量AI视频生成模型

Mochi 1是Genmo公司推出的开源 AI视频生成模型...

sCM – OpenAI推出连续时间一致性模型，两步采样生成高质量图像

sCM是OpenAI推出的连续时间一致性模型，基于扩散模型原...

OmniCorpus – 百亿级多模态数据集，支持中英双语

OmniCorpus是一个大规模多模态数据集，包含86亿张图...

脸猫 – AI照片编辑应用，支持一键换装、AI换脸等多功能快速变装

脸猫是集成换装、AI换脸和风格写真的创新应用，让用户轻松拍出...

MineWorld – 微软研究院开源的实时交互式世界模型

MineWorld是微软研究院开源的基于《我的世界》（Min...

MIMO – 阿里智能研究院推出的可控角色AI视频合成框架

MIMO是阿里巴巴集团智能计算研究所推出的可控角色视频合成的...

YouTube Dubbing – AI浏览器插件，一键翻译国外视频用熟悉语言播放

YouTube Dubbing是在线观看国外视频的浏览器插件...

Ming-lite-omni – 蚂蚁集团开源的统一多模态大模型

Ming-Lite-Omni是蚂蚁集团开源的统一多模态大模型...