Multimodal Live API – 谷歌推出支持多模态交互、低延迟实时互动的AI接口

1个月前发布 48 00

Multimodal Live API 是谷歌推出的低延迟、双向交互的AI接口,支持文本、音频和视频输入,用音频和文本形式输出,能帮助开发者构建具有实时音频和视频流功能的应用程序。Multimodal Live API让与AI的对话更加自然,支持用户随时打断AI,就像人类之间的对话一样。Multimodal Live API具备视频理解能...

收录时间:
2025-12-16
Multimodal Live API – 谷歌推出支持多模态交互、低延迟实时互动的AI接口Multimodal Live API – 谷歌推出支持多模态交互、低延迟实时互动的AI接口

Multimodal Live API 是谷歌推出的低延迟、双向交互的AI接口,支持文本、音频和视频输入,用音频和文本形式输出,能帮助开发者构建具有实时音频和视频流功能的应用程序。Multimodal Live API让与AI的对话更加自然,支持用户随时打断AI,就像人类之间的对话一样。Multimodal Live API具备视频理解能力,让用户用摄像头输入或屏幕共享与AI互动。API专为服务器到服务器的通信设计,适用于需要实时、多模态交互的应用场景。

官网:https://github.com/google-gemini/multimodal-live-api-web-console/tree/demos/genexplainer


立即打开官网

数据统计

相关导航