Finedefics – 北大团队推出的细粒度多模态大模型

4个月前发布 109 00

Finedefics 是北京大学彭宇新教授团队推出的细粒度多模态大模型，提升多模态大语言模型（MLLMs）在细粒度视觉识别（FGVR）任务中的表现。模型通过引入对象的细粒度属性描述，基于对比学习对齐视觉对象与类别名称的表示，解决了传统模型中视觉对象与细粒度子类别未对齐的问题。官网：https://github.com/PKU-ICST-M...

收录时间：

2025-12-16

打开网站手机查看

Finedefics – 北大团队推出的细粒度多模态大模型

Finedefics – 北大团队推出的细粒度多模态大模型

Finedefics 是北京大学彭宇新教授团队推出的细粒度多模态大模型，提升多模态大语言模型（MLLMs）在细粒度视觉识别（FGVR）任务中的表现。模型通过引入对象的细粒度属性描述，基于对比学习对齐视觉对象与类别名称的表示，解决了传统模型中视觉对象与细粒度子类别未对齐的问题。

官网：https://github.com/PKU-ICST-MIPL/Finedefics_ICLR2025

立即打开官网

数据统计

相关导航

RWKV-7 – RWKV系列的最新大模型架构版本，有强大的上下文学习能力

RWKV-7是RWKV系列的最新大模型架构版本，超越了传统的...

TÜLU 3 – Ai2 推出的系列开源指令遵循模型

TÜLU 3是艾伦人工智能研究所（Ai2）推出的一系列开源指...

SimpleAR – 复旦大学联合字节 Seed 团队推出的图像生成模型

SimpleAR 是复旦大学视觉与学习实验室和字节 Seed...

IC-Portrait – ETH联合浙大等推出的个性化肖像生成框架

IC-Portrait是新型的个性化肖像生成框架，解决用户资...

NoteLLM – 小红书推出的笔记推荐多模态大模型框架

NoteLLM 是小红书推出的针对笔记推荐的多模态大型语言模...

Matrix3D – 南大联合Apple、港科大推出的统一摄影测量模型

Matrix3D 是南京大学、苹果公司和香港科技大学合作推出...

YOLOv9 – 新一代高效的实时目标检测系统

YOLOv9是一个由台北中研院和台北科技大学等机构的研究团队...

Embodied Reasoner – 浙大联合阿里等机构推出的具身交互推理模型

Embodied Reasoner是浙江大学、中国科学院软件...