在本文中,作者介绍了一种语义引导的生成式图像增广方法SGID。该方法平衡了图像多样性和语义一致性。具体来说,SGID通过使用图像标签和caption作为语义引导来构建提示,生成既保留原始图像中基本语义又带来良好图像多样性的增广图像。
论文题目: Semantic-guided Generative Image augmentation method with Diffusion models for image classification 论文链接: https://arxiv.org/abs/2302.02070一、 背景
现有的图像增广方法分为两类:基于扰动的方法和生成方法。基于扰动的方法应用预定义的扰动来增广原始图像,但大多局限于局部变化,因此缺乏图像多样性。相比之下,生成式方法在增广的图像中带来了更多的图像多样性,但可能无法保持语义一致性,因此可能错误地改变原始图像的基本语义。为了在增广图像中平衡图像多样性和语义一致性,我们提出了SGID(Semantic-guided Generative Image augmentation method with Diffusion models for image classification),一种语义引导的生成式图像增广方法。
图1: 四种基线方法与SGID在四个数据集上基于ViT(ImageNet-21k)的表现。SGID在语义一致性和图像多样性之间取得了平衡,从而带来了最高的性能提升。 二、SGID框架
在本文中,我们提出了SGID,一种语义引导的生成式图像增广方法。我们的目标不是在各种数据集和backbone上超越现有的图像增广基线,而是探索一种平衡图像多样性和语义一致性的方法,即保留原始图像的基本语义的同时带来良好的图像多样性。此外,SGID可以自然地与其他数据增广(DA)基线结合,并进一步提高它们的性能。SGID包括两个基本步骤,如图2所示:
图2: 本文方法SGID的示意图。 1. 我们首先构建每张图像的文本标签,然后使用BLIP[1]生成caption,再使用CLIP[2]计算选定caption和原始图像之间的相似性。标签和caption都提供了原始图像的基本语义。
2. 我们根据每张图像的标签和caption构建提示。然后将提示连同原始图像一起输入到Stable Diffusion中。提示中包含的语义引导可以帮助生成多样化且语义一致的增广图像。
2.1 标签获取和标题生成
在第一步中,我们从原始图像构建提示,作为后续第二步的语义引导。提示由原始图像的文本标签和caption组成。具体来说,对于每张图像 x,我们首先使用其真实图像标签来构建相应的句子作为文本标签 l:
然后我们通过BLIP模型为图像生成caption:
采样策略包括 beam search[3]和nucleus sampling[4]。对于每张图像,我们获得相应的caption集合,并从中随机选择一个caption。caption可以提供图像标签以外的语义信息,例如背景和颜色的描述。将caption与真实但通常过短的图像标签结合起来,可以为增广图像的生成提供有效的语义引导。此外,为了增加提示的语义一致性,我们还通过将CLIP作为一个可选过滤器来探索潜在更高质量的caption。给定生成的caption集合,我们使用CLIP计算原始图像与每个caption之间的相似性,并选择相似性最高的caption。
2.2 图像到图像生成
在第二步中,我们采用文本标签和caption作为图像到图像生成的语义引导。我们首先将它们连接起来构建文本提示。例如,在图2中,“A picture of a [Chevrolet Silverado 1500 Extended Cab 2012], a 2009 chevrolet silverado in a desert.”文本提示不仅携带了来自图像标签的准确但简洁的图像语义,还包含了来自图像caption的整体图像描述。为了提供图像多样性,我们在Stable Diffusion中应用高斯噪声,噪声率为 n ,基于上述语义约束基于原始图像进行微小修改。
考虑到图像标签和图像caption的不同贡献,我们采用提示加权策略。具体来说,我们分别为标签和caption应用不同的权重,将权重与两者的向量表示分别相乘。此外,为了控制语义对图像生成的指导程度,我们采用指导映射策略,提供适当的
指导比例 g。指导比例 g 表示图像生成过程中,在多大程度上遵循文本提示 p的引导。最后,Stable Diffusion根据上述元素生成增广图像:
三、实验 3.1 实验设置3.1.1 数据集
我们在七个常用数据集上评估了我们提出方法的有效性,包括三个粗粒度分类数据集:CIFAR-10、CIFAR-100、Caltech101(Cal101),以及四个细粒度分类数据集:Stanford Cars(Cars)、Flowers102(Flowers)、OxfordPets(Pets)和纹理分类数据集 DTD。
3.1.2 Backbones
我们在三个backbones上进行实验,包括一个基础模型:ResNet-50 (from scratch) [5],以及两个预训练模型:ViT(ImageNet-21k)[6],CLIP-ViT(LAION-2B)[7]。
3.1.3 基线方法
我们应用各种数据增广(DA)方法作为基线,包括四种基于扰动的方法:Random Erasing(RE)、CutMix、MoEx和RandAugment(RA),以及三种生成式方法:Text2Img、SGID+DiverseCaption(SGID+DC)和SGID+InstructPix2Pix(SGID+IP)。所有生成式方法都使用相同的图像生成模型SD。
3.2 主实验结果
在本文中,我们在三个backbones上使用七个数据增广(DA)基线对七个数据集进行了实验(图3)。
图3: 在七个数据集、三个backbone上,SGID与七种基线模型的实验结果,以及SGID与基线模型相结合的实验结果。
(1) 总体而言,SGID显示出正面效果,并在所有七个数据集和三个backbone上取得平均最高性能。具体来说,我们的方法在ResNet-50 (from scratch)上带来了10.39%的准确率提升,在ViT(ImageNet-21k)上为2.08%,在CLIP-ViT(LAION-2B)上为0.85%。这表明通过向扩散模型中加入语义引导的图像增广可以使不同的backbones受益。值得注意的是,SGID在CLIP-ViT(LAION-2B)上仍有效果,其预训练数据几乎与SD相同。这证明了SGID范式的有效性:在保留原始图像的语义一致性的同时带来良好的图像多样性。
(2) 在语义引导下,SGID的表现与扰动式或生成式的最佳基线相当或更好。具体来说,SGID在ResNet-50 (from scratch)上的平均表现以4.89%和1.72%优于RandAugment和SGID+DiverseCaption,在ViT(ImageNet-21k)上分别提升1.26%和0.33%,在CLIP-ViT(LAION-2B)上分别提升0.19%和0.14%。明显的性能提升显示了SGID在语义引导下平衡了多样性和语义一致性。
(3) SGID可以与基于扰动和生成的基线方法结合以进一步提高性能。我们分别探索基于SGID的RandAugment方法,和基于Text2Img的SGID方法。我们发现上述结合在三个backbone上均实现了进一步的提升。例如,作为“基于扰动 & 基于生成”的结合,“SGID & RA”既超过了RA,又超过了SGID。持续和显著的性能提升进一步证明了SGID不仅保留了原始图像的基本语义,同时带来良好的多样性,而且与基于扰动的方法互有助益。有趣的是,尽管Text2Img和SGID两种生成式增广方法的图像生成模型是相同的,但Text2Img & SGID的性能超过Text2Img,却低于SGID。我们将前者的性能提升归因于SGID引入的语义引导,而后者的性能下降则由于Text2Img可能错误地改变了原始图像的基本语义。
四、图像多样性与语义一致性
在本节中,我们旨在从三个角度讨论SGID和其他基线方法的图像多样性和语义一致性:(1) 人类评估;(2) 自动相似性评估;(3) 案例研究。我们尝试分析SGID为何比现有扰动式和生成式的基线方法表现更好。
4.1 人类评估
我们在一个粗粒度分类数据集(Caltech101)、一个细粒度分类数据集(OxfordPets)以及一个纹理分类数据集(DTD)上应用人类评估,如图4。对于每个数据集,我们随机选择10个标签及其对应的10张原始图像。我们将SGID与最佳的扰动式和生成式基线(RandAugment、Text2Img和SGID+DiverseCaption)进行比较。我们根据原始图像对这四种方法的增广图像进行评估。每张增广图像分别根据图像多样性和语义一致性在1~5的范围内进行评分。
图4: 四种 DA 方法在三个数据集上在语义一致性(Con.)和多样性(Div.)角度的人类评估结果。
我们发现SGID在语义一致性方面与RandAugment相似,但图像多样性相对更高,而在语义一致性方面比Text2Img和SGID+DiverseCaption更高,但图像多样性相对较低。当考虑图像分类性能和人类评估结果时,我们的SGID通过语义引导的生成式图像增广实现了最佳性能,平衡了图像多样性和语义一致性。
4.2 自动相似性评估
我们基于CIFAR-10进行自动相似性评估,并分别使用SGID和六种数据增广基线为每张原始图像生成五张增广图像。对于每种数据增广方法,我们计算原始图像及其五张增广图像间的平均余弦相似性。我们在所有原始图像上重复此过程,并计算每个标签的平均值作为多样性的衡量指标。增广图像与原始图像之间的平均相似性越低,对应的数据增广方法带来的语义一致性越低,但多样性越显著。结果如图5所示。
图5: CIFAR-10上每个类别的增强图像和原始图像之间的平均余弦相似度。
总体而言,与基于扰动式数据增广方法相比,SGID的相似度较低(0.8548),而与生成式基线相比,相似度较高。我们的SGID的平均相似性位于两类数据增广方法之间,但SGID在图像分类任务中表现最佳。这进一步证明了平衡图像多样性和语义一致性的重要性。
4.3 案例研究
图6比较了SGID和其他六种基线方法生成的增广图像。三种基于扰动式基线方法通过变换带来多样性。然而,这些预定义的变换无法为增广图像提供足够的多样性。生成式基线方法比扰动式基线方法带来了更多样和生动的图像,但它们难以保持原始图像的语义一致性。相比之下,SGID保留了原始图像的语义一致性,并提供了良好的图像多样性,这也在下游任务中带来了性能提升。
图6: 7种增广方法的样例分析。
五、结论
在本文中,我们介绍了SGID,一种语义引导的生成式图像增广方法。所提出的方法平衡了图像多样性和语义一致性。具体来说,SGID通过使用图像标签和caption作为语义引导来构建提示,生成既保留原始图像中基本语义又带来良好图像多样性的增广图像。我们通过在七个不同数据集上使用三个backbones与七个强大的图像增广基线进行实验来证明SGID的有效性。SGID在所有数据集上均优于backbone,并取得了最佳或与所有基线相当的性能。此外,SGID可以与其他图像增广基线结合,进一步提高整体性能。我们还通过定量的人类和自动评估以及定性的案例研究,评估了SGID在语义一致性和图像多样性方面的表现。
总体而言,SGID展示了在图像增广中平衡图像多样性与语义一致性的重要性。通过将图像标签和caption结合作为语义引导,SGID不仅在保持原始图像基本语义的同时增加了图像多样性,而且在不同的数据集和backbone上都显示出卓越的性能。这一方法的成功证明了在图像增广领域中,对语义的细致考量是提高模型性能的关键因素。SGID的灵活性也表现在它能与其他增广方法结合使用,进一步提高性能,这为未来的图像增广研究提供了新的视角和策略。
参考文献
[1] Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation, arXiv:2201.12086.
[2] Learning transferable visual models from natural language supervision,Proc. of ICML, 2021.
[3] Style transfer from non-parallel text by cross-alignment, Advances in neural information processing systems, 2017 volume 30.
[4] The Curious Case of Neural Text Degeneration, arXiv:1904.09751.
[5] Deep residual learning for image recognition, CVPR 2016.
[6] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, ArXiv 2020
[7] Reproducible scaling laws for contrastive language-image learning, ArXiv: 2212.07143
Illustration From Undraw
-The End-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
chenhongyuan@thejiangmen.com
或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com