UniTok – 字节联合港大、华中科技推出的统一视觉分词器

1个月前发布 34 00

UniTok 是字节跳动联合香港大学和华中科技大学推出的统一视觉分词器,能同时支持视觉生成和理解任务。基于多码本量化技术,将视觉特征分割成多个小块,每块用独立的子码本进行量化,极大地扩展离散分词的表示能力,解决传统分词器在细节捕捉和语义理解之间的矛盾。UniTok 在 ImageNet 上的零样本分类准确率达到 78.6%,重建质量(rF...

收录时间:
2025-12-16
UniTok – 字节联合港大、华中科技推出的统一视觉分词器UniTok – 字节联合港大、华中科技推出的统一视觉分词器

UniTok 是字节跳动联合香港大学和华中科技大学推出的统一视觉分词器,能同时支持视觉生成和理解任务。基于多码本量化技术,将视觉特征分割成多个小块,每块用独立的子码本进行量化,极大地扩展离散分词的表示能力,解决传统分词器在细节捕捉和语义理解之间的矛盾。UniTok 在 ImageNet 上的零样本分类准确率达到 78.6%,重建质量(rFID)仅为 0.38,显著优于现有分词器。基于 UniTok 构建的多模态大语言模型(MLLM)在视觉问答和图像生成任务中均表现出色,展现了在多模态任务中的强大潜力。

官网:https://github.com/FoundationVision/UniTok


立即打开官网

数据统计

相关导航