AsrTools – 开源的AI语音转文字工具,支持调用多家大厂接口
AsrTools是一款高效的智能语音转文字工具,能将音频文件...
VideoVAE+(VideoVAE Plus)是香港科技大学团队推出的先进的跨模态视频变分自编码器(Video VAE),通过引入新的时空分离压缩机制和文本指导,实现了对大幅运动视频的高效压缩与精准重建,同时保持了良好的时间一致性和运动恢复。VideoVAE+在视频重建质量上全面超越了最新模型,包括英伟达的Cosmos Tokenizer等。模型支持高保真重建,跨模态重建,在视频重建任务中树立了新的基准。