OmniTalker – 阿里推出的实时文本驱动说话头像生成框架

4个月前发布 102 00

OmniTalker 是阿里巴巴发布的实时文本驱动的说话头像生成技术，能同时处理文本、图像、音频和视频等多种模态输入，以流式方式生成自然语音响应。核心架构为 Thinker-Talker 架构，Thinker 负责处理多模态输入并生成语义表征和文本内容，Talker 将这些信息转化为流畅的语音输出。OmniTalker 采用了 TMRoP...

收录时间：

2025-12-16

打开网站手机查看

OmniTalker – 阿里推出的实时文本驱动说话头像生成框架

OmniTalker – 阿里推出的实时文本驱动说话头像生成框架

OmniTalker 是阿里巴巴发布的实时文本驱动的说话头像生成技术，能同时处理文本、图像、音频和视频等多种模态输入，以流式方式生成自然语音响应。核心架构为 Thinker-Talker 架构，Thinker 负责处理多模态输入并生成语义表征和文本内容，Talker 将这些信息转化为流畅的语音输出。OmniTalker 采用了 TMRoPE（时间对齐多模态旋转位置嵌入）技术，确保视频与音频输入的精准同步。

官网：https://arxiv.org/pdf/2504.02433v1

立即打开官网

数据统计

相关导航

VidSketch – 浙江大学推出的视频动画生成框架

VidSketch 是浙江大学 CAD&CG 国家重点实验室...

HiCo – 360 AI研究院推出的布局可控AI绘画模型

HiCo是360 AI研究院推出的基于扩散模型的层次化可控布...

tldraw – AI白板绘图工具，开源免费的无限画布和多种绘画功能

tldraw是开源的无限画布工具，提供易于使用的绘图和协...

Tensor.Art – 在线AI图像生成平台，免费AI绘画和模型托管

Tensor.Art 是一个 AI图像生成平台，基于 St...

DiffBrush – 北邮联合清华等机构推出的图像生成与编辑框架

DiffBrush是北京邮电大学、清华大学、中国电信人工智能...

MimicTalk – 字节联合浙大推出的开源3D数字人头项目

MimicTalk是浙江大学和字节跳动共同研发推出基于NeR...

OminiControl – AI图像生成框架，实现图像主题控制和空间精确控制

OminiControl是高度通用且参数高效的图像生成框架...

理想同学 – 理想汽车推出的 AI 智能助手

理想同学是理想汽车推出的AI智能助手，依托自研大模型开发，全...