GigaTok – 港大联合字节推出用于自回归图像生成的视觉分词器

4个月前发布 100 00

GigaTok 是用于自回归图像生成的视觉分词器，参数量达 30 亿。通过语义正则化技术，将分词器特征与预训练视觉编码器（如 DINOv2）的语义特征对齐，有效约束潜在空间复杂度，解决了视觉分词器在扩展时重建质量与生成质量之间的矛盾。GigaTok 采用了一维分词器架构以提高可扩展性，优先扩展解码器以高效分配计算资源，引入熵损失来稳定...

收录时间：

2025-12-16

打开网站手机查看

GigaTok – 港大联合字节推出用于自回归图像生成的视觉分词器

GigaTok – 港大联合字节推出用于自回归图像生成的视觉分词器

GigaTok 是用于自回归图像生成的视觉分词器，参数量达 30 亿。通过语义正则化技术，将分词器特征与预训练视觉编码器（如 DINOv2）的语义特征对齐，有效约束潜在空间复杂度，解决了视觉分词器在扩展时重建质量与生成质量之间的矛盾。GigaTok 采用了一维分词器架构以提高可扩展性，优先扩展解码器以高效分配计算资源，引入熵损失来稳定大规模模型的训练。

官网：https://github.com/SilentView/GigaTok

立即打开官网

数据统计

相关导航

ConsiStory – 免训练实现主题一致性的文生图方法

ConsiStory是由NVIDIA和特拉维夫大学的研究人员...

Genius – AI图像处理应用，满足不同风格转换、质量增强、对象移除

Genius 是AI驱动的照片编辑应用，支持用户通过简单的步...

LogoCreator – 开源 AI Logo生成器，几秒内创建专业级定制化商标

LogoCreator是开源的 logo生成器，基于Tog...

Moffee – 开源的Markdown转PPT工具

Moffee是开源的Markdown转 PPT工具，支持用...

IFAdapter – 腾讯和新加坡国立大学联合推出的文本到图像生成模型

IFAdapter是一种新型的文本到图像生成模型，由腾讯和新...

Open Materials 2024 – Meta 开源的大型开放数据集和配套预训练模型

Open Materials 2024 (OMat24) 是...

MCA-Ctrl – 中科院和中科大推出的图像定制生成框架

MCA-Ctrl（Multi-party Collabora...

EVE – AI社交伴侣，实现多模态交互和3D互动

EVE是一款由自然选择（深圳）智能有限公司推出的3D AI伴...