HumanOmni – 阿里通义等推出专注人类中心场景的多模态大模型

4个月前发布 138 00

HumanOmni 是专注于人类中心场景的多模态大模型，视觉和听觉模态融合而成。通过处理视频、音频或两者的结合输入，能全面理解人类行为、情感和交互。模型基于超过240万视频片段和1400万条指令进行预训练，采用动态权重调整机制，根据不同场景灵活融合视觉和听觉信息。HumanOmni 在情感识别、面部描述和语音识别等方面表现出色，适用于...

收录时间：

2025-12-16

打开网站手机查看

HumanOmni – 阿里通义等推出专注人类中心场景的多模态大模型

HumanOmni – 阿里通义等推出专注人类中心场景的多模态大模型

HumanOmni 是专注于人类中心场景的多模态大模型，视觉和听觉模态融合而成。通过处理视频、音频或两者的结合输入，能全面理解人类行为、情感和交互。模型基于超过240万视频片段和1400万条指令进行预训练，采用动态权重调整机制，根据不同场景灵活融合视觉和听觉信息。HumanOmni 在情感识别、面部描述和语音识别等方面表现出色，适用于电影分析、特写视频解读和实拍视频理解等多种场景。

官网：https://github.com/HumanMLLM/HumanOmni

立即打开官网

数据统计

相关导航

MotionCanvas – 港中文和 Adobe 等机构推出的可控图像到视频生成方法

MotionCanvas是香港中文大学、Adobe 研究院和...

StableAnimator – 复旦联合微软等机构推出的端到端身份一致性视频扩散框架

StableAnimator是复旦大学、微软亚洲研究院、虎牙...

Stable Virtual Camera – Stability AI 等机构推出的 AI 模型，2D图像转3D视频

Stable Virtual Camera 是 Stabil...

EmoLLM – 专注于心理健康支持的大语言模型

EmoLLM 是专注于心理健康支持的大型语言模型，通过多模态...

AudioX – 港科大联合月之暗面推出的扩散变换器模型，任意内容生成音频

AudioX 是香港科技大学和月之暗面联合提出的统一扩散变压...

PyVideoTrans – 开源的视频翻译和配音工具，支持多种语言

PyVideoTrans 是开源的视频翻译配音工具，将视频内...

AnchorCrafter – 中科院联合腾讯推出的AI虚拟主播带货视频制作技术

AnchorCrafter是基于扩散模型的智能视频制作系统...

混元图生视频 – 腾讯混元开源的图生视频模型

混元图生视频是腾讯混元推出的开源图生视频模型，用户可以通过上...