AnyText – 阿里开源的视觉图像文字生成和编辑模型

1个月前发布 38 00

AnyText是阿里巴巴智能计算研究院的团队推出的一个基于扩散的多语言视觉文本生成和编辑模型,专注于在图像中渲染准确和连贯的文本。AnyText包括两个主要元素的扩散管线:辅助潜在模块和文本嵌入模块。前者使用文本字形、位置和蒙版图像等输入来生成文本生成或编辑的潜在特征。后者采用OCR模型对笔划数据进行编码,这些编码与来自分词器的图像标题嵌...

收录时间:
2025-12-16
AnyText – 阿里开源的视觉图像文字生成和编辑模型AnyText – 阿里开源的视觉图像文字生成和编辑模型

AnyText是阿里巴巴智能计算研究院的团队推出的一个基于扩散的多语言视觉文本生成和编辑模型,专注于在图像中渲染准确和连贯的文本。AnyText包括两个主要元素的扩散管线:辅助潜在模块和文本嵌入模块。前者使用文本字形、位置和蒙版图像等输入来生成文本生成或编辑的潜在特征。后者采用OCR模型对笔划数据进行编码,这些编码与来自分词器的图像标题嵌入结合,生成与背景无缝融合的文本。该技术解决了在生成图像中的文本区域时合成文本模糊、不可读或错误的挑战,提高了图像中文本书写的准确性。

官网:https://github.com/tyxsspa/AnyText


立即打开官网

数据统计

相关导航