OmniHuman – 字节跳动推出的单张照片生成全身动态视频生成框架

4个月前发布 139 00

OmniHuman是字节跳动推出的端到端多模态条件化人类视频生成框架，能基于单张人类图像和运动信号（如音频、视频或两者的组合）生成逼真的人类视频。OmniHuman基于多模态运动条件混合训练策略，克服以往方法因高质量数据稀缺而导致的性能瓶颈，支持任意宽高比的图像输入（包括肖像、半身和全身图像），能适应多种场景。OmniHuman 在歌...

收录时间：

2025-12-16

打开网站手机查看

OmniHuman – 字节跳动推出的单张照片生成全身动态视频生成框架

OmniHuman – 字节跳动推出的单张照片生成全身动态视频生成框架

OmniHuman是字节跳动推出的端到端多模态条件化人类视频生成框架，能基于单张人类图像和运动信号（如音频、视频或两者的组合）生成逼真的人类视频。OmniHuman基于多模态运动条件混合训练策略，克服以往方法因高质量数据稀缺而导致的性能瓶颈，支持任意宽高比的图像输入（包括肖像、半身和全身图像），能适应多种场景。OmniHuman 在歌唱、对话、手势处理等方面表现出色，支持多种视觉和音频风格，同时兼容音频、视频及组合驱动，生成高质量的视频内容。

官网：https://arxiv.org/pdf/2502.01061

立即打开官网

数据统计

相关导航

MiniPerplx – AI 搜索引擎，基于 Grok 2.0 模型

MiniPerplx 是开源的 AI 搜索引擎，基于 Gr...

TrajectoryCrafter – 腾讯和港中文推出的单目视频自由运镜技术

TrajectoryCrafter 是腾讯PCG ARC L...

Ai好记

Ai好记是功能强大的AI多模态知识库，能轻松解决你的信息处理...

SpatialLM – 群核科技开源的空间理解多模态模型

SpatialLM 是群核科技开源的空间理解多模态模型，赋予...

StoryTeller – 字节、上海交大、北大共同推出的全自动长视频描述生成一致系统

StoryTeller是字节跳动、上海交通大学和北京大学共同...

浦语灵笔 – 开源的多模态大模型，性能媲美GPT-4V

浦语灵笔IXC-2.5是上海人工智能实验室推出的新一代多模态...

Stable Assistant – Stability AI推出的AI聊天机器人

Stable Assistant是由Stability AI...

STAR – 南大、字节、西南大学联合开源的现实世界视频超分辨率框架

STAR是南京大学、字节跳动、西南大学联合推出的，创新的现实...