LongAlign – 港大推出的提升文本到图像扩散模型处理长文本对齐方法

1个月前发布 26 00

LongAlign是香港大学研究团队推出的文本到图像(T2I)扩散模型的改进方法,能提升长文本输入的对齐精度。LongAlign用段级编码技术,将长文本分割处理,适应编码模型的输入限制。同时引入分解偏好优化,基于区分偏好模型中的文本相关和无关部分,应用不同权重减少过拟合,增强对齐度。经过20小时微调,LongAlign显著提高Stable...

收录时间:
2025-12-16
LongAlign – 港大推出的提升文本到图像扩散模型处理长文本对齐方法LongAlign – 港大推出的提升文本到图像扩散模型处理长文本对齐方法

LongAlign是香港大学研究团队推出的文本到图像(T2I)扩散模型的改进方法,能提升长文本输入的对齐精度。LongAlign用段级编码技术,将长文本分割处理,适应编码模型的输入限制。同时引入分解偏好优化,基于区分偏好模型中的文本相关和无关部分,应用不同权重减少过拟合,增强对齐度。经过20小时微调,LongAlign显著提高Stable Diffusion v1.5模型在长文本对齐任务上的性能,超越PixArt-α和Kandinsky v2.2等先进模型。

官网:https://github.com/luping-liu/LongAlign


立即打开官网

数据统计

相关导航