Seer – 上海 AI Lab 联合北大等机构推出的端到端操作模型
Seer是由上海AI实验室、北京大学计算机科学与技术学院、北...
TokenFD是上海交通大学联合美团推出的细粒度图文对齐基础模型,主要用于文档理解任务。通过Token级对齐,实现了图像Token与语言Token在同一特征空间中的共享,支持Token级图文交互,在处理包含密集文字的图像时表现突出。为了训练该模型,团队构建了业内首个Token级图文数据集TokenIT,包含2000万张图像和18亿高质量的Token-Mask对,数据量远超现有模型。