TokenFD – 上海交大联合美团推出的细粒度图文对齐基础模型

1个月前发布 33 00

TokenFD是上海交通大学联合美团推出的细粒度图文对齐基础模型,主要用于文档理解任务。通过Token级对齐,实现了图像Token与语言Token在同一特征空间中的共享,支持Token级图文交互,在处理包含密集文字的图像时表现突出。为了训练该模型,团队构建了业内首个Token级图文数据集TokenIT,包含2000万张图像和18亿高质量的...

收录时间:
2025-12-16
TokenFD – 上海交大联合美团推出的细粒度图文对齐基础模型TokenFD – 上海交大联合美团推出的细粒度图文对齐基础模型

TokenFD是上海交通大学联合美团推出的细粒度图文对齐基础模型,主要用于文档理解任务。通过Token级对齐,实现了图像Token与语言Token在同一特征空间中的共享,支持Token级图文交互,在处理包含密集文字的图像时表现突出。为了训练该模型,团队构建了业内首个Token级图文数据集TokenIT,包含2000万张图像和18亿高质量的Token-Mask对,数据量远超现有模型。

官网:https://github.com/Token-family/TokenFD


立即打开官网

数据统计

相关导航