CoGenAV – 通义联合深圳技术大学推出的多模态语音表征模型

4个月前发布 143 00

CoGenAV（Contrastive-Generative Audio-Visual Representation Learning）是先进的多模态学习模型，专注于音频和视觉信号的对齐与融合。通过对比特征对齐和生成文本预测的双重目标进行训练，利用同步音频、视频和文本数据，学习捕捉时间对应关系和语义信息。CoGenAV仅需223小时的标记...

收录时间：

2025-12-16

打开网站手机查看

CoGenAV – 通义联合深圳技术大学推出的多模态语音表征模型

CoGenAV – 通义联合深圳技术大学推出的多模态语音表征模型

CoGenAV（Contrastive-Generative Audio-Visual Representation Learning）是先进的多模态学习模型，专注于音频和视觉信号的对齐与融合。通过对比特征对齐和生成文本预测的双重目标进行训练，利用同步音频、视频和文本数据，学习捕捉时间对应关系和语义信息。CoGenAV仅需223小时的标记数据即可训练，展现出极高的数据效率。

官网：https://github.com/HumanMLLM/CoGenAV

立即打开官网

数据统计

相关导航

Kimi-VL – 月之暗面开源的轻量级多模态视觉语言模型

Kimi-VL 是月之暗面开源的轻量级多模态视觉语言模型，基...

Seaweed APT2 – 字节跳动推出的AI视频生成模型

Seaweed APT2是字节跳动推出的创新的 AI视频生成...

Gen-3 Alpha – Runway公司最新推出的AI视频生成模型

Gen-3 Alpha是AI视频初创公司 Runway 最新...

Rope – 基于深度学习模型开源的AI换脸技术

Rope是一款开源的 AI换脸工具，基于insightfa...

Ruyi – 图森未来推出的图生视频大模型

Ruyi是图森未来推出的图生视频大模型，专为在消费级显卡上运...

STIV – 苹果公司推出的视频生成大模型

STIV（Scalable Text and Image C...

VideoAnydoor – 港大联合阿里达摩院等机构推出的零样本视频对象插入框架

VideoAnydoor是香港大学、阿里巴巴集团达摩院、湖畔...

Free Video-LLM – 无需训练的高效视频语言模型

Free Video-LLM是创新的无需训练的高效视频语言模...