OmniTalker – 阿里推出的实时文本驱动说话头像生成框架

1个月前发布 27 00

OmniTalker 是阿里巴巴发布的实时文本驱动的说话头像生成技术,能同时处理文本、图像、音频和视频等多种模态输入,以流式方式生成自然语音响应。核心架构为 Thinker-Talker 架构,Thinker 负责处理多模态输入并生成语义表征和文本内容,Talker 将这些信息转化为流畅的语音输出。OmniTalker 采用了 TMRoP...

收录时间:
2025-12-16
OmniTalker – 阿里推出的实时文本驱动说话头像生成框架OmniTalker – 阿里推出的实时文本驱动说话头像生成框架

OmniTalker 是阿里巴巴发布的实时文本驱动的说话头像生成技术,能同时处理文本、图像、音频和视频等多种模态输入,以流式方式生成自然语音响应。核心架构为 Thinker-Talker 架构,Thinker 负责处理多模态输入并生成语义表征和文本内容,Talker 将这些信息转化为流畅的语音输出。OmniTalker 采用了 TMRoPE(时间对齐多模态旋转位置嵌入)技术,确保视频与音频输入的精准同步。

官网:https://arxiv.org/pdf/2504.02433v1


立即打开官网

数据统计

相关导航