VidSketch – 浙江大学推出的视频动画生成框架
VidSketch 是浙江大学 CAD&CG 国家重点实验室...
OmniTalker 是阿里巴巴发布的实时文本驱动的说话头像生成技术,能同时处理文本、图像、音频和视频等多种模态输入,以流式方式生成自然语音响应。核心架构为 Thinker-Talker 架构,Thinker 负责处理多模态输入并生成语义表征和文本内容,Talker 将这些信息转化为流畅的语音输出。OmniTalker 采用了 TMRoPE(时间对齐多模态旋转位置嵌入)技术,确保视频与音频输入的精准同步。