CAVIA – 苹果、得克萨斯、谷歌联合推出的多视角视频生成框架
CAVIA是苹果公司、得克萨斯大学奥斯汀分校、谷歌联合推出的...
Multimodal Live API 是谷歌推出的低延迟、双向交互的AI接口,支持文本、音频和视频输入,用音频和文本形式输出,能帮助开发者构建具有实时音频和视频流功能的应用程序。Multimodal Live API让与AI的对话更加自然,支持用户随时打断AI,就像人类之间的对话一样。Multimodal Live API具备视频理解能力,让用户用摄像头输入或屏幕共享与AI互动。API专为服务器到服务器的通信设计,适用于需要实时、多模态交互的应用场景。
官网:https://github.com/google-gemini/multimodal-live-api-web-console/tree/demos/genexplainer