DanceFusion – 清华大学推出音频驱动舞蹈动作重建与生成的开源框架
DanceFusion是清华大学推出的开源框架,专注于音频驱...
Moshi是由法国的的人工智能研究实验室Kyutai推出的一款端到端实时音频多模态AI模型,拥有听、说、看的能力,并能模拟70种不同的情绪和风格进行交流。作为平替 GPT-4o 的开源模型,Moshi在普通笔记本上即可运行,具有低延迟特性,支持本地设备使用,保护用户隐私。Moshi的开发和训练流程简单高效,由8人团队在6个月内完成,将很快开源模型的代码、权重和技术论文,免费供全球用户使用和进一步研究开发。