D-DiT – 耶鲁大学联合字节Seed等机构推出的多模态扩散模型

4个月前发布 108 00

D-DiT（Dual Diffusion Transformer）是卡内基梅隆大学、耶鲁大学和字节跳动Seed实验室推出的多模态扩散模型，能统一图像生成和理解任务。模型结合连续图像扩散（流匹配）和离散文本扩散（掩码扩散），基于双向注意力机制同时训练图像和文本模态。D-DiT能实现文本到图像生成和图像到文本生成的双向任务，支持视觉问答、图像...

收录时间：

2025-12-16

打开网站手机查看

D-DiT – 耶鲁大学联合字节Seed等机构推出的多模态扩散模型

D-DiT – 耶鲁大学联合字节Seed等机构推出的多模态扩散模型

D-DiT（Dual Diffusion Transformer）是卡内基梅隆大学、耶鲁大学和字节跳动Seed实验室推出的多模态扩散模型，能统一图像生成和理解任务。模型结合连续图像扩散（流匹配）和离散文本扩散（掩码扩散），基于双向注意力机制同时训练图像和文本模态。D-DiT能实现文本到图像生成和图像到文本生成的双向任务，支持视觉问答、图像描述生成等多种应用。模型基于多模态扩散Transformer架构，联合扩散目标训练，展现出与自回归模型相媲美的多模态理解和生成能力，为视觉语言模型的发展提供新的方向。

官网：https://github.com/zijieli-Jlee/Dual-Diffusion

立即打开官网

数据统计

相关导航

ThinkChain – 开源AI框架，工具结果实时反馈到AI思考过程中

ThinkChain是开源框架，提升AI工具的智能交互能力...

Pad.ws – 在线AI开发工具，白板功能与代码编辑器深度结合

Pad.ws 是创新的在线开发环境，结合了白板功能与完整的 ...

RAG Logger – 专为检索增强生成应用设计的开源日志工具

RAG Logger是开源的日志记录工具，专为检索增强生成...

EMMA-X – 新加坡科技设计大学推出的具身多模态动作模型

EMMA-X是新加坡科技设计大学推出的具有70亿参数的具身多...

D-Edit – 基于图像、文本、掩码的多功能图像编辑框架

D-Edit是基于图像和文本的多功能图像编辑框架，基于预训练...

Dream-7B – 港大联合华为诺亚方舟开源的扩散推理模型

Dream-7B是香港大学和华为诺亚方舟实验室联合推出的扩散...

InstantCharacter – 腾讯混元开源的定制化图像生成插件

InstantCharacter 是腾讯混元开源的定制化图像...

LightEval – Hugging Face推出的轻量级AI大模型评估工具

LightEval是Hugging Face推出的一款轻量级...