HumanOmni – 阿里通义等推出专注人类中心场景的多模态大模型

1个月前发布 34 00

HumanOmni 是专注于人类中心场景的多模态大模型,视觉和听觉模态融合而成。通过处理视频、音频或两者的结合输入,能全面理解人类行为、情感和交互。模型基于超过240万视频片段和1400万条指令进行预训练,采用动态权重调整机制,根据不同场景灵活融合视觉和听觉信息。HumanOmni 在情感识别、面部描述和 语音识别 等方面表现出色,适用于...

收录时间:
2025-12-16
HumanOmni – 阿里通义等推出专注人类中心场景的多模态大模型HumanOmni – 阿里通义等推出专注人类中心场景的多模态大模型

HumanOmni 是专注于人类中心场景的多模态大模型,视觉和听觉模态融合而成。通过处理视频、音频或两者的结合输入,能全面理解人类行为、情感和交互。模型基于超过240万视频片段和1400万条指令进行预训练,采用动态权重调整机制,根据不同场景灵活融合视觉和听觉信息。HumanOmni 在情感识别、面部描述和 语音识别 等方面表现出色,适用于电影分析、特写视频解读和实拍视频理解等多种场景。

官网:https://github.com/HumanMLLM/HumanOmni


立即打开官网

数据统计

相关导航