ILLUME – 华为诺亚方舟实验室推出的统一多模态大模型

4个月前发布 106 00

ILLUME是华为诺亚方舟实验室提出的统一多模态大模型，将视觉理解与生成能力融入同一框架中。模型以大型语言模型（LLM）为核心，采用“连续图像输入 + 离散图像输出”的架构，融合了多模态理解与生成的双重能力，深度挖掘了统一框架下理解与生成能力协同增强的潜力。ILLUME通过语义视觉分词器和三阶段训练流程实现高效训练，仅使用15M数据量就达...

收录时间：

2025-12-16

打开网站手机查看

ILLUME – 华为诺亚方舟实验室推出的统一多模态大模型

ILLUME – 华为诺亚方舟实验室推出的统一多模态大模型

ILLUME是华为诺亚方舟实验室提出的统一多模态大模型，将视觉理解与生成能力融入同一框架中。模型以大型语言模型（LLM）为核心，采用“连续图像输入 + 离散图像输出”的架构，融合了多模态理解与生成的双重能力，深度挖掘了统一框架下理解与生成能力协同增强的潜力。ILLUME通过语义视觉分词器和三阶段训练流程实现高效训练，仅使用15M数据量就达到了与现有统一多模态大模型相当的性能。

官网：https://arxiv.org/pdf/2412.06673

立即打开官网

数据统计

相关导航

AnyPaint – AI图像生成工具，识别参考图艺术风格生成相似图片

AnyPaint是 AI图像生成工具，通过AI算法帮助用户...

绘蛙·创意文生图 – 阿里绘蛙推出的 AI 文生图工具

绘蛙·创意文生图是阿里绘蛙推出的 AI图像生成工具。提...

剪同款 – AI图片处理应用，提供多种AI滤镜和动态效果

剪同款是AI图片处理APP，提供多种AI滤镜和动态效果，能一...

Delta-CoMe – 清华联合 OpenBMB 等高校开源的新型增量压缩算法

Delta-CoMe是清华大学NLP实验室联合OpenBMB...

Twitter Personality – Twitter账号AI趣味分析应用

Twitter Personality是 Wordware ...

Textoon – 阿里通义实验室推出的文本提示生成2D卡通人物工具

Textoon是阿里巴巴集团通义实验室推出的创新项目，首个能...

GarDiff – AI虚拟试穿技术，生成高保真试穿图像保留服装细节

GarDiff是一种创新的虚拟试穿技术，通过使用CLIP和V...

PicMenu – AI菜单可视化工具，上传菜单图片自动提取菜品信息生成展示图

PicMenu是基于人工智能的菜单可视化工具，能将纸质菜单通...