分享好友 最新动态首页 最新动态分类 切换频道
AAAI 2024 | 语义引导的生成式图像增广方法
2024-12-26 05:03

在本文中,作者介绍了一种语义引导的生成式图像增广方法SGID。该方法平衡了图像多样性和语义一致性。具体来说,SGID通过使用图像标签和caption作为语义引导来构建提示,生成既保留原始图像中基本语义又带来良好图像多样性的增广图像。

AAAI 2024 | 语义引导的生成式图像增广方法

论文题目: Semantic-guided Generative Image augmentation method with Diffusion models for image classification 论文链接: https://arxiv.org/abs/2302.02070
一、 背景

现有的图像增广方法分为两类:基于扰动的方法和生成方法。基于扰动的方法应用预定义的扰动来增广原始图像,但大多局限于局部变化,因此缺乏图像多样性。相比之下,生成式方法在增广的图像中带来了更多的图像多样性,但可能无法保持语义一致性,因此可能错误地改变原始图像的基本语义。为了在增广图像中平衡图像多样性和语义一致性,我们提出了SGID(Semantic-guided Generative Image augmentation method with Diffusion models for image classification),一种语义引导的生成式图像增广方法。

图1: 四种基线方法与SGID在四个数据集上基于ViT(ImageNet-21k)的表现。SGID在语义一致性和图像多样性之间取得了平衡,从而带来了最高的性能提升。 二、SGID框架

在本文中,我们提出了SGID,一种语义引导的生成式图像增广方法。我们的目标不是在各种数据集和backbone上超越现有的图像增广基线,而是探索一种平衡图像多样性和语义一致性的方法,即保留原始图像的基本语义的同时带来良好的图像多样性。此外,SGID可以自然地与其他数据增广(DA)基线结合,并进一步提高它们的性能。SGID包括两个基本步骤,如图2所示:


图2: 本文方法SGID的示意图。 1. 我们首先构建每张图像的文本标签,然后使用BLIP[1]生成caption,再使用CLIP[2]计算选定caption和原始图像之间的相似性。标签和caption都提供了原始图像的基本语义。

2. 我们根据每张图像的标签和caption构建提示。然后将提示连同原始图像一起输入到Stable Diffusion中。提示中包含的语义引导可以帮助生成多样化且语义一致的增广图像。

2.1 标签获取和标题生成

在第一步中,我们从原始图像构建提示,作为后续第二步的语义引导。提示由原始图像的文本标签和caption组成。具体来说,对于每张图像 x,我们首先使用其真实图像标签来构建相应的句子作为文本标签 l:

然后我们通过BLIP模型为图像生成caption:

采样策略包括 beam search[3]和nucleus sampling[4]。对于每张图像,我们获得相应的caption集合,并从中随机选择一个caption。caption可以提供图像标签以外的语义信息,例如背景和颜色的描述。将caption与真实但通常过短的图像标签结合起来,可以为增广图像的生成提供有效的语义引导。此外,为了增加提示的语义一致性,我们还通过将CLIP作为一个可选过滤器来探索潜在更高质量的caption。给定生成的caption集合,我们使用CLIP计算原始图像与每个caption之间的相似性,并选择相似性最高的caption。

2.2 图像到图像生成

在第二步中,我们采用文本标签和caption作为图像到图像生成的语义引导。我们首先将它们连接起来构建文本提示。例如,在图2中,“A picture of a [Chevrolet Silverado 1500 Extended Cab 2012], a 2009 chevrolet silverado in a desert.”文本提示不仅携带了来自图像标签的准确但简洁的图像语义,还包含了来自图像caption的整体图像描述。为了提供图像多样性,我们在Stable Diffusion中应用高斯噪声,噪声率为 n ,基于上述语义约束基于原始图像进行微小修改。

考虑到图像标签和图像caption的不同贡献,我们采用提示加权策略。具体来说,我们分别为标签和caption应用不同的权重,将权重与两者的向量表示分别相乘。此外,为了控制语义对图像生成的指导程度,我们采用指导映射策略,提供适当的

指导比例 g。指导比例 g 表示图像生成过程中,在多大程度上遵循文本提示 p的引导。最后,Stable Diffusion根据上述元素生成增广图像:

三、实验 3.1 实验设置3.1.1 数据集

我们在七个常用数据集上评估了我们提出方法的有效性,包括三个粗粒度分类数据集:CIFAR-10、CIFAR-100、Caltech101(Cal101),以及四个细粒度分类数据集:Stanford Cars(Cars)、Flowers102(Flowers)、OxfordPets(Pets)和纹理分类数据集 DTD。

3.1.2 Backbones

我们在三个backbones上进行实验,包括一个基础模型:ResNet-50 (from scratch) [5],以及两个预训练模型:ViT(ImageNet-21k)[6],CLIP-ViT(LAION-2B)[7]。

3.1.3 基线方法

我们应用各种数据增广(DA)方法作为基线,包括四种基于扰动的方法:Random Erasing(RE)、CutMix、MoEx和RandAugment(RA),以及三种生成式方法:Text2Img、SGID+DiverseCaption(SGID+DC)和SGID+InstructPix2Pix(SGID+IP)。所有生成式方法都使用相同的图像生成模型SD。

3.2 主实验结果

在本文中,我们在三个backbones上使用七个数据增广(DA)基线对七个数据集进行了实验(图3)。

图3: 在七个数据集、三个backbone上,SGID与七种基线模型的实验结果,以及SGID与基线模型相结合的实验结果。

(1) 总体而言,SGID显示出正面效果,并在所有七个数据集和三个backbone上取得平均最高性能。具体来说,我们的方法在ResNet-50 (from scratch)上带来了10.39%的准确率提升,在ViT(ImageNet-21k)上为2.08%,在CLIP-ViT(LAION-2B)上为0.85%。这表明通过向扩散模型中加入语义引导的图像增广可以使不同的backbones受益。值得注意的是,SGID在CLIP-ViT(LAION-2B)上仍有效果,其预训练数据几乎与SD相同。这证明了SGID范式的有效性:在保留原始图像的语义一致性的同时带来良好的图像多样性。

(2) 在语义引导下,SGID的表现与扰动式或生成式的最佳基线相当或更好。具体来说,SGID在ResNet-50 (from scratch)上的平均表现以4.89%和1.72%优于RandAugment和SGID+DiverseCaption,在ViT(ImageNet-21k)上分别提升1.26%和0.33%,在CLIP-ViT(LAION-2B)上分别提升0.19%和0.14%。明显的性能提升显示了SGID在语义引导下平衡了多样性和语义一致性。

(3) SGID可以与基于扰动和生成的基线方法结合以进一步提高性能。我们分别探索基于SGID的RandAugment方法,和基于Text2Img的SGID方法。我们发现上述结合在三个backbone上均实现了进一步的提升。例如,作为“基于扰动 & 基于生成”的结合,“SGID & RA”既超过了RA,又超过了SGID。持续和显著的性能提升进一步证明了SGID不仅保留了原始图像的基本语义,同时带来良好的多样性,而且与基于扰动的方法互有助益。有趣的是,尽管Text2Img和SGID两种生成式增广方法的图像生成模型是相同的,但Text2Img & SGID的性能超过Text2Img,却低于SGID。我们将前者的性能提升归因于SGID引入的语义引导,而后者的性能下降则由于Text2Img可能错误地改变了原始图像的基本语义。

四、图像多样性与语义一致性

在本节中,我们旨在从三个角度讨论SGID和其他基线方法的图像多样性和语义一致性:(1) 人类评估;(2) 自动相似性评估;(3) 案例研究。我们尝试分析SGID为何比现有扰动式和生成式的基线方法表现更好。

4.1 人类评估

我们在一个粗粒度分类数据集(Caltech101)、一个细粒度分类数据集(OxfordPets)以及一个纹理分类数据集(DTD)上应用人类评估,如图4。对于每个数据集,我们随机选择10个标签及其对应的10张原始图像。我们将SGID与最佳的扰动式和生成式基线(RandAugment、Text2Img和SGID+DiverseCaption)进行比较。我们根据原始图像对这四种方法的增广图像进行评估。每张增广图像分别根据图像多样性和语义一致性在1~5的范围内进行评分。

图4: 四种 DA 方法在三个数据集上在语义一致性(Con.)和多样性(Div.)角度的人类评估结果。

我们发现SGID在语义一致性方面与RandAugment相似,但图像多样性相对更高,而在语义一致性方面比Text2Img和SGID+DiverseCaption更高,但图像多样性相对较低。当考虑图像分类性能和人类评估结果时,我们的SGID通过语义引导的生成式图像增广实现了最佳性能,平衡了图像多样性和语义一致性。

4.2 自动相似性评估

我们基于CIFAR-10进行自动相似性评估,并分别使用SGID和六种数据增广基线为每张原始图像生成五张增广图像。对于每种数据增广方法,我们计算原始图像及其五张增广图像间的平均余弦相似性。我们在所有原始图像上重复此过程,并计算每个标签的平均值作为多样性的衡量指标。增广图像与原始图像之间的平均相似性越低,对应的数据增广方法带来的语义一致性越低,但多样性越显著。结果如图5所示。

图5: CIFAR-10上每个类别的增强图像和原始图像之间的平均余弦相似度。

总体而言,与基于扰动式数据增广方法相比,SGID的相似度较低(0.8548),而与生成式基线相比,相似度较高。我们的SGID的平均相似性位于两类数据增广方法之间,但SGID在图像分类任务中表现最佳。这进一步证明了平衡图像多样性和语义一致性的重要性。

4.3 案例研究

图6比较了SGID和其他六种基线方法生成的增广图像。三种基于扰动式基线方法通过变换带来多样性。然而,这些预定义的变换无法为增广图像提供足够的多样性。生成式基线方法比扰动式基线方法带来了更多样和生动的图像,但它们难以保持原始图像的语义一致性。相比之下,SGID保留了原始图像的语义一致性,并提供了良好的图像多样性,这也在下游任务中带来了性能提升。

图6: 7种增广方法的样例分析。

五、结论

在本文中,我们介绍了SGID,一种语义引导的生成式图像增广方法。所提出的方法平衡了图像多样性和语义一致性。具体来说,SGID通过使用图像标签和caption作为语义引导来构建提示,生成既保留原始图像中基本语义又带来良好图像多样性的增广图像。我们通过在七个不同数据集上使用三个backbones与七个强大的图像增广基线进行实验来证明SGID的有效性。SGID在所有数据集上均优于backbone,并取得了最佳或与所有基线相当的性能。此外,SGID可以与其他图像增广基线结合,进一步提高整体性能。我们还通过定量的人类和自动评估以及定性的案例研究,评估了SGID在语义一致性和图像多样性方面的表现。

总体而言,SGID展示了在图像增广中平衡图像多样性与语义一致性的重要性。通过将图像标签和caption结合作为语义引导,SGID不仅在保持原始图像基本语义的同时增加了图像多样性,而且在不同的数据集和backbone上都显示出卓越的性能。这一方法的成功证明了在图像增广领域中,对语义的细致考量是提高模型性能的关键因素。SGID的灵活性也表现在它能与其他增广方法结合使用,进一步提高性能,这为未来的图像增广研究提供了新的视角和策略。

参考文献

[1] Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation, arXiv:2201.12086.

[2] Learning transferable visual models from natural language supervision,Proc. of ICML, 2021.

[3] Style transfer from non-parallel text by cross-alignment, Advances in neural information processing systems, 2017 volume 30.

[4] The Curious Case of Neural Text Degeneration, arXiv:1904.09751.

[5] Deep residual learning for image recognition, CVPR 2016.

[6] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, ArXiv 2020

[7] Reproducible scaling laws for contrastive language-image learning, ArXiv: 2212.07143

Illustration From Undraw

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

最新文章
AI写作助手:让你的文章优秀起来!
ai写作助手:让你的文章优秀起来!在这个信息爆炸的时代,写作成为了我们工作和生活中不可或缺的一部分。然而,有时候我们可能会遇到困扰,不知道该AI写作助手更好地表达自己的思想,或者文章内容显得平淡乏味。幸运的是,现在有了AI写作助
AI写代码准确率高达80% 离自动生成程序还有多远?
日前,全球最大开源代码托管平台GitHub的CEO托马斯·多梅克(Thomas Dohmke)亲自演示了人工智能(AI)写代码。他现场仅花15分钟就制作完成了一个小游戏APP,并将其成功上线。AI在写代码上带来的便利得到了不少程序员的认可。谷歌工程师Aik
2024年旗舰手机怎么选?618选购攻略及超人气产品推荐
​​马上又到618,一年中数码产品促销最给力的一个电商节,或许你也准备把用了多年的旧手机扔掉,换一款新旗舰犒劳一下辛苦忙碌的自己。那么新旗舰手机怎么选呢?此文就与大家谈一谈这个问题,并推荐五款超人气旗舰手机:⭕️ 旗舰手机怎么
AI微短剧创作指南:从构思到剧本撰写全方位解析与实践
近年来随着人工智能技术的快速发展,在内容创作领域的应用日益广泛。国内首部全流程微短剧《补天》的成功发布,标志着技术在我国短视频创作领域的深入应用。本文将为您详细介绍微短剧的创作过程,从构思到剧本撰写全方位解析与实践。1. 主
1000以内的智能手机推荐 性价比才是王道
  现如今,手机已经渐渐的融入了我们的生活,不论走在哪里,我们都可以看到每个人手上拿着一部手机,忙碌的工作着。手机由于性能的不同在价位上存在着很大的差异,从几百元到五六千元,各个价格阶段都有数百款乃至数千款的手机。对于工薪
AI生成美女写真:掌握这几个神器,轻松创建你的AI女友!
ArtbreederArtbreeder是一款十分流行的AI生成艺术图片工具,允许用户通过合成和调整不同的”基因“来创造出独一无二的头像和风景图。其最大的优势在于用户可以通过简单的滑块调节各种效果,包括肤色、发型、表情等,适合那些喜欢尝试和调整
1.88亿元,zycgr再次采购大批仪器设备
采购项目需求概况预算金额/万元采购时间定制式自动化高通量药物筛选平台拟购置药物筛选平台,实现自动化的高通量药物筛选(HTS),主要包括:1、通过自动化管理系统将多台不同功能、不同品牌的实验仪器整合起来,自动化的完成复杂实验任务
2023玩家最多的手游有哪些 人气最高的手游游戏排行榜
2023玩家最多的手游有哪些?这里为大家提供人气最高的手游游戏排行榜!此外盒子里还包含1000余款热门手游公益服任选,国内手游领跑者,想要尝试其他类型游戏的朋友也可以进入盒子搜索对应游戏名进行体验哦,咪噜游戏平台:H5手游、APP手游、
2024年新奥开奖结果,新式数据解释设想_知晓版19.885
标题:2024年新奥开奖结果,新式数据解释设想_知晓版19.885===  在2024年,新奥彩票行业经历了一场技术革新,不仅奖项设置更加多元和丰富,而且对于开奖结果的数据统计和解释也更加详尽和专业。因此,本文旨在为彩民提供一个全面的视角,
AI绘画在线生成器免费版:让你轻松释放创造力
AI绘画在线生成器是一款强大的工具,它利用人工智能技术为用户提供免费的绘画服务,大大减轻了艺术创作的难度。本文将介绍AI绘画在线生成器的使用方法及其优势,帮助你轻松释放创造力。一、AI绘画在线生成器的访问入口AI绘画在线生成器的访
相关文章
推荐文章
发表评论
0评