Mobius – 重庆邮电联合美团等推出的无缝循环视频生成技术
Mobius 是先进的无缝循环 视频生成 技术,能通过人工智...
Chinese-LiPS 是智源研究院联合南开大学共同打造的高质量中文多模态 语音识别 数据集,包含100小时的语音、视频和手动转录文本,创新性地融合了唇读视频和演讲者的幻灯片内容。幻灯片由领域专家精心设计,确保了视觉图像的高质量和丰富性。数据集通过结合唇读和幻灯片信息,提升了语音识别性能,实验表明,唇读信息和幻灯片信息分别可提升ASR性能约8%和25%,两者结合可提升约35%。面向中文讲解、科普、教学、知识传播等复杂语境。