VMB – 中科院联合多所高校机构推出增强多模态音乐生成的框架
VMB(Visuals Music Bridge)是中国科学...
CoGenAV(Contrastive-Generative Audio-Visual Representation Learning)是先进的多模态学习模型,专注于音频和视觉信号的对齐与融合。通过对比特征对齐和生成文本预测的双重目标进行训练,利用同步音频、视频和文本数据,学习捕捉时间对应关系和语义信息。CoGenAV仅需223小时的标记数据即可训练,展现出极高的数据效率。