VQAScore – CMU联合Meta推出的文本到视觉图像生成评估方法

1个月前发布 44 00

VQAScore是CMU和Meta联合推出的评估方法,基于视觉问答(VQA)模型衡量由文本提示生成的图像质量。VQAScore用计算模型对“Does this figure show {text}?”这一问题回答“是”的概率,评估图像与文本提示的对齐程度。VQAScore的核心优势在于无需额外人类标注,直接用现有的VQA模型,用概率值的形...

收录时间:
2025-12-16
VQAScore – CMU联合Meta推出的文本到视觉图像生成评估方法VQAScore – CMU联合Meta推出的文本到视觉图像生成评估方法

VQAScore是CMU和Meta联合推出的评估方法,基于视觉问答(VQA)模型衡量由文本提示生成的图像质量。VQAScore用计算模型对“Does this figure show {text}?”这一问题回答“是”的概率,评估图像与文本提示的对齐程度。VQAScore的核心优势在于无需额外人类标注,直接用现有的VQA模型,用概率值的形式提供更精确的评估结果,超越传统评估指标如CLIPScore。VQAScore已被应用于多个项目中如Imagen3,用于自动评估和优化最新的生成式模型。

官网:https://github.com/linzhiqiu/t2v_metrics


立即打开官网

数据统计

相关导航