CogVideoX-Fun – 基于CogVideoX的整合包,支持生成无限长度的视频
CogVideoX-Fun是一个基于CogVideoX结合E...
Multimodal Live API 是谷歌推出的低延迟、双向交互的AI接口,支持文本、音频和视频输入,用音频和文本形式输出,能帮助开发者构建具有实时音频和视频流功能的应用程序。Multimodal Live API让与AI的对话更加自然,支持用户随时打断AI,就像人类之间的对话一样。Multimodal Live API具备视频理解能力,让用户用摄像头输入或屏幕共享与AI互动。API专为服务器到服务器的通信设计,适用于需要实时、多模态交互的应用场景。
官网:https://github.com/google-gemini/multimodal-live-api-web-console/tree/demos/genexplainer