MMaDA – 字节联合普林斯顿大学等推出的多模态扩散模型

1个月前发布 38 00

MMaDA(Multimodal Large Diffusion Language Models)是普林斯顿大学、清华大学、北京大学和字节跳动推出的多模态扩散模型,支持跨文本推理、多模态理解和文本到 图像生成 等多个领域实现卓越性能。模型用统一的扩散架构,具备模态不可知的设计,消除对特定模态组件的需求,引入混合长链推理(CoT)微调策略...

收录时间:
2025-12-16
MMaDA – 字节联合普林斯顿大学等推出的多模态扩散模型MMaDA – 字节联合普林斯顿大学等推出的多模态扩散模型

MMaDA(Multimodal Large Diffusion Language Models)是普林斯顿大学、清华大学、北京大学和字节跳动推出的多模态扩散模型,支持跨文本推理、多模态理解和文本到 图像生成 等多个领域实现卓越性能。模型用统一的扩散架构,具备模态不可知的设计,消除对特定模态组件的需求,引入混合长链推理(CoT)微调策略,统一跨模态的CoT格式,推出UniGRPO,针对扩散基础模型的统一策略梯度强化学习算法,基于多样化的奖励建模,统一推理和生成任务的后训练,确保性能一致提升。MMaDA在多项任务上展现出超越现有模型的性能,为多模态AI的发展提供新的方向。

官网:https://github.com/Gen-Verse/MMaDA


立即打开官网

数据统计

相关导航