OmniAudio – 阿里通义推出的空间音频生成模型

4个月前发布 108 00

OmniAudio 是阿里巴巴通义实验室语音团队推出的从360°视频生成空间音频（FOA）的技术。为虚拟现实和沉浸式娱乐提供更真实的音频体验。通过构建大规模数据集Sphere360，包含超过10.3万个视频片段，涵盖288种音频事件，总时长288小时，为模型训练提供了丰富资源。OmniAudio 的训练分为两个阶段：自监督的coarse...

收录时间：

2025-12-16

打开网站手机查看

OmniAudio – 阿里通义推出的空间音频生成模型

OmniAudio – 阿里通义推出的空间音频生成模型

OmniAudio 是阿里巴巴通义实验室语音团队推出的从360°视频生成空间音频（FOA）的技术。为虚拟现实和沉浸式娱乐提供更真实的音频体验。通过构建大规模数据集Sphere360，包含超过10.3万个视频片段，涵盖288种音频事件，总时长288小时，为模型训练提供了丰富资源。OmniAudio 的训练分为两个阶段：自监督的coarse-to-fine流匹配预训练，基于大规模非空间音频资源进行自监督学习；以及基于双分支视频表示的有监督微调，强化模型对声源方向的表征能力。

官网：https://github.com/liuhuadai/OmniAudio

立即打开官网

数据统计

相关导航

EasyVideoTrans – 开源的AI视频翻译工具，快速将英文视频转中文视频

EasyVideoTrans是开源的 AI视频翻译工具，能...

Veo – 谷歌推出的可生成1分钟1080P的视频模型

Veo是由Google DeepMind开发的一款视频生成模...

Baichuan-Omni-1.5 – 百川智能开源的全模态理解模型

Baichuan-Omni-1.5是百川智能开源的全模态模型...

AniTalker – 上海交大开源的对口型说话视频生成框架

AniTalker是由来自上海交大X-LANCE实验室和思必...

Rope – 基于深度学习模型开源的AI换脸技术

Rope是一款开源的 AI换脸工具，基于insightfa...

STIV – 苹果公司推出的视频生成大模型

STIV（Scalable Text and Image C...

Vidu主体参照功能 – Vidu推出的AI视频生成新功能，一键同步角色特征

Vidu 主体参照功能是Vidu AI全球首发的参考一致性新...

Eagle 2.5 – 英伟达推出的视觉语言模型

Eagle 2.5是英伟达推出的视觉语言模型，专注于长上下文...