AnyText – 阿里开源的视觉图像文字生成和编辑模型

4个月前发布 141 00

AnyText是阿里巴巴智能计算研究院的团队推出的一个基于扩散的多语言视觉文本生成和编辑模型，专注于在图像中渲染准确和连贯的文本。AnyText包括两个主要元素的扩散管线：辅助潜在模块和文本嵌入模块。前者使用文本字形、位置和蒙版图像等输入来生成文本生成或编辑的潜在特征。后者采用OCR模型对笔划数据进行编码，这些编码与来自分词器的图像标题嵌...

收录时间：

2025-12-16

打开网站手机查看

AnyText – 阿里开源的视觉图像文字生成和编辑模型

AnyText – 阿里开源的视觉图像文字生成和编辑模型

AnyText是阿里巴巴智能计算研究院的团队推出的一个基于扩散的多语言视觉文本生成和编辑模型，专注于在图像中渲染准确和连贯的文本。AnyText包括两个主要元素的扩散管线：辅助潜在模块和文本嵌入模块。前者使用文本字形、位置和蒙版图像等输入来生成文本生成或编辑的潜在特征。后者采用OCR模型对笔划数据进行编码，这些编码与来自分词器的图像标题嵌入结合，生成与背景无缝融合的文本。该技术解决了在生成图像中的文本区域时合成文本模糊、不可读或错误的挑战，提高了图像中文本书写的准确性。

官网：https://github.com/tyxsspa/AnyText

立即打开官网

数据统计

相关导航

GOT-OCR2.0 – 开源的端到端OCR模型，多语言多模态识别，多样化输入输出

GOT-OCR 2.0是一种先进的光学字符识别（OCR）模型...

Dify – 开源的生成式AI应用开发平台

Dify是开源的生成式 AI应用开发平台，帮助用户快速构建...

Qwen2 – 阿里云开源的新一代通义千问大模型

Qwen2是由阿里云通义千问团队开源的新一代大语言模型，该系...

Magistral – Mistral AI推出的推理模型系列

Magistral 是 Mistral AI 推出的推理模型...

Manga Image Translator – 开源漫画图片文字翻译工具，多语言翻译无缝嵌入原图

Manga Image Translator是开源的漫画图片...

Llama 3 – Meta开源推出的新一代大语言模型

Llama 3是Meta公司最新开源推出的新一代大型语言模型...

PixWizard – 开源的AI图像视觉助手，多功能图像生成、编辑、翻译

PixWizard是一个多功能的图像到图像视觉助手，基于自然...

MAI-DS-R1 – 微软开源的 AI 模型，基于 DeepSeek R1 改进版

MAI-DS-R1 是微软基于 DeepSeek R1 改进...