AnchorCrafter – 中科院联合腾讯推出的AI虚拟主播带货视频制作技术
AnchorCrafter是基于扩散模型的智能视频制作系统...
CoGenAV(Contrastive-Generative Audio-Visual Representation Learning)是先进的多模态学习模型,专注于音频和视觉信号的对齐与融合。通过对比特征对齐和生成文本预测的双重目标进行训练,利用同步音频、视频和文本数据,学习捕捉时间对应关系和语义信息。CoGenAV仅需223小时的标记数据即可训练,展现出极高的数据效率。