LDGen – 理想汽车推出的多语言文本到图像生成技术

4个月前发布 98 00

LDGen是创新的文本到图像合成技术，通过结合大型语言模型（LLMs）与扩散模型，提升文本描述到图像生成的质量和语义一致性。通过分层标题优化和人类指令技术，提取文本中的精确语义信息，基于轻量级适配器实现LLMs与图像特征的高效对齐和交互。LDGen支持零样本多语言生成，能根据多种语言的文本描述生成高质量图像，显著优于传统方法。官网：h...

收录时间：

2025-12-16

打开网站手机查看

LDGen – 理想汽车推出的多语言文本到图像生成技术

LDGen – 理想汽车推出的多语言文本到图像生成技术

LDGen是创新的文本到图像合成技术，通过结合大型语言模型（LLMs）与扩散模型，提升文本描述到图像生成的质量和语义一致性。通过分层标题优化和人类指令技术，提取文本中的精确语义信息，基于轻量级适配器实现LLMs与图像特征的高效对齐和交互。LDGen支持零样本多语言生成，能根据多种语言的文本描述生成高质量图像，显著优于传统方法。

官网：https://github.com/zrealli/LDGen

立即打开官网

数据统计

相关导航

Command A – Cohere 推出的生成式 AI 模型

Command A 是 Cohere 推出的最新生成式 AI...

Qwen3 Embedding – 阿里通义开源的文本嵌入模型系列

Qwen3 Embedding 是基于 Qwen3 基础模型...

DeepSeek V3 – DeepSeek开源的最新版 AI 模型，编程能力超越Claude

DeepSeek V3是知名私募巨头幻方量化旗下人工智能公司...

RepText – Liblib AI联合Shakker Labs推出的多语言视觉文本渲染框架

RepText 是Shakker Labs 和 Liblib...

Maya – 开源多语言多模态模型，能处理和理解八种不同语言

Maya是开源的多语言多模态模型，基于指令微调扩展模型在多种...

Phi-3.5 – 微软推出的新一代AI模型，mini、MoE混合和视觉模型

Phi-3.5是微软推出的新一代AI模型系列，包含 Phi...

WebLI-100B – 谷歌 DeepMind 推出的1000亿视觉语言数据集

WebLI-100B是Google DeepMind推出的包...

FineWeb 2 – Hugging Face推出的多语言预训练数据集

FineWeb 2是Hugging Face推出的多语言预训...