UniTok – 字节联合港大、华中科技推出的统一视觉分词器

4个月前发布 121 00

UniTok 是字节跳动联合香港大学和华中科技大学推出的统一视觉分词器，能同时支持视觉生成和理解任务。基于多码本量化技术，将视觉特征分割成多个小块，每块用独立的子码本进行量化，极大地扩展离散分词的表示能力，解决传统分词器在细节捕捉和语义理解之间的矛盾。UniTok 在 ImageNet 上的零样本分类准确率达到 78.6%，重建质量（rF...

收录时间：

2025-12-16

打开网站手机查看

UniTok – 字节联合港大、华中科技推出的统一视觉分词器

UniTok – 字节联合港大、华中科技推出的统一视觉分词器

UniTok 是字节跳动联合香港大学和华中科技大学推出的统一视觉分词器，能同时支持视觉生成和理解任务。基于多码本量化技术，将视觉特征分割成多个小块，每块用独立的子码本进行量化，极大地扩展离散分词的表示能力，解决传统分词器在细节捕捉和语义理解之间的矛盾。UniTok 在 ImageNet 上的零样本分类准确率达到 78.6%，重建质量（rFID）仅为 0.38，显著优于现有分词器。基于 UniTok 构建的多模态大语言模型（MLLM）在视觉问答和图像生成任务中均表现出色，展现了在多模态任务中的强大潜力。

官网：https://github.com/FoundationVision/UniTok

立即打开官网

数据统计

相关导航

模型判官 – 在线AI模型评测平台，三个模型生成回答，第四个模型进行评判

模型判官是一个基于 Next.js 构建的在线AI模型评测平...

Umax – AI 面部分析应用，获得面部特征分析和个性化改进建议

Umax是基于人工智能的面部分析应用，旨在帮助用户提升面部吸...

llmware – 专为企业级应用设计的开源统一框架

llmware是为企业级应用设计的统一框架，适用于构建基于小...

RuoYi AI – 全栈式 AI 开发平台，快速搭建个性化 AI 应用

RuoYi AI 是全栈式 AI 开发平台，提供完整的前端...

CatVTON – 中山大学和Pixocial联合推出的虚拟试衣技术

CatVTON是一种先进的虚拟试衣技术，由中山大学和Pixo...

LightLab – 谷歌等机构推出的图像光源控制模型

LightLab是谷歌等机构推出的基于扩散模型的图像光源控制...

联通元景 – 中国联通AI开源的中文原生文生图模型

联通元景（UniT2IXL）是中国联通AI推出的中文原生文生...

小冰岛 – AI虚拟社交平台，在虚拟岛屿创造克隆人进行互动生活

小冰岛是AI社交平台，用户在虚拟岛屿上创造克隆人，与之互动生...