Motion Anything – 腾讯联合京东等高校推出的多模态运动生成框架

4个月前发布 120 00

Motion Anything 是澳大利亚国立大学、悉尼大学、腾讯、麦吉尔大学、京东等机构推出的多模态运动生成框架，根据文本、音乐或两者的组合生成高质量、可控的人类运动。Motion Anything引入基于注意力的掩码建模方法，实现对运动序列中关键帧和动作的细粒度控制，解决现有方法无法根据条件优先生成动态内容的问题。框架基于时间自适应和...

收录时间：

2025-12-16

打开网站手机查看

Motion Anything – 腾讯联合京东等高校推出的多模态运动生成框架

Motion Anything – 腾讯联合京东等高校推出的多模态运动生成框架

Motion Anything 是澳大利亚国立大学、悉尼大学、腾讯、麦吉尔大学、京东等机构推出的多模态运动生成框架，根据文本、音乐或两者的组合生成高质量、可控的人类运动。Motion Anything引入基于注意力的掩码建模方法，实现对运动序列中关键帧和动作的细粒度控制，解决现有方法无法根据条件优先生成动态内容的问题。框架基于时间自适应和空间对齐变换器，有效整合多种模态条件，提升生成运动的连贯性和多样性。同时推出 Text-Music-Dance (TMD) 数据集，包含 2153 对文本、音乐和舞蹈的配对样本，为多模态运动生成的研究提供了新的基准。

官网：https://github.com/steve-zeyu-zhang/MotionAnything

立即打开官网

数据统计

相关导航

Moshi – 法国AI实验室Kyutai开发的实时音频多模态模型

Moshi是由法国的的人工智能研究实验室Kyutai推出的一...

ImageBind – Meta推出开源多模态AI模型，实现六种多模态数据整合

ImageBind是Meta公司推出的开源多模态AI模型，将...

InspireMusic – 阿里通义实验室开源的音乐生成技术

InspireMusic 是阿里巴巴通义实验室开源的音乐生...

SongGen – 上海 AI Lab 和北航、港中文推出的歌曲生成模型

SongGen是上海AI Lab、北京航空航天大学和香港中文...

ChatMusician – 可理解和生成音乐的大模型

ChatMusician是由Multimodal Art P...

行者AI

行者AI官网是成都潜在人工智能科技有限公司的官方网站，展示其基于AI技术的文娱、教育、内容生成与智能安全解决方案，以及企业动态与行业成果。

EMAGE – 清华联合东大等机构推出的音频生成全身共语手势框架

EMAGE（Expressive Masked Audio...

Emotion-LLaMA – 多模态情绪识别与推理模型，融合音频、视觉和文本输入

Emotion-LLaMA是多模态情绪识别与推理模型，融合了...