GigaTok – 港大联合字节推出用于自回归图像生成的视觉分词器

1个月前发布 25 00

GigaTok 是用于自回归 图像生成 的视觉分词器,参数量达 30 亿。通过语义正则化技术,将分词器特征与预训练视觉编码器(如 DINOv2)的语义特征对齐,有效约束潜在空间复杂度,解决了视觉分词器在扩展时重建质量与生成质量之间的矛盾。GigaTok 采用了一维分词器架构以提高可扩展性,优先扩展解码器以高效分配计算资源,引入熵损失来稳定...

收录时间:
2025-12-16
GigaTok – 港大联合字节推出用于自回归图像生成的视觉分词器GigaTok – 港大联合字节推出用于自回归图像生成的视觉分词器

GigaTok 是用于自回归 图像生成 的视觉分词器,参数量达 30 亿。通过语义正则化技术,将分词器特征与预训练视觉编码器(如 DINOv2)的语义特征对齐,有效约束潜在空间复杂度,解决了视觉分词器在扩展时重建质量与生成质量之间的矛盾。GigaTok 采用了一维分词器架构以提高可扩展性,优先扩展解码器以高效分配计算资源,引入熵损失来稳定大规模模型的训练。

官网:https://github.com/SilentView/GigaTok


立即打开官网

数据统计

相关导航