【论文阅读】C2AM: Contrastive learning of Class-agnostic Activation Map for WSOL and SS
图像分类产生的CAM图通常集中于discriminative区域。作者提出了C2AM模型,使用未标记图像训练 获得类不可知激活图(Class-agnostic Activation Map)。作者的idea主要是:1)前景对象和背景对象的语义信息通常差距较大。2)颜色或者纹理相近的前景或者背景对象有相似的表征。作者将这些关系梳理成正负对,然后利用对比学习分离前景和背景。
一篇CVPR2022上的论文,用于弱监督定位和弱监督分割
论文标题:
C2AM: Contrastive learning of Class-agnostic Activation Map for Weakly Supervised Object Localization and Semantic Segmentation
作者信息:
代码地址:
https://github.com/CVI-SZU/CCAM
论文链接:
https://arxiv.org/pdf/2203.13505.pdf
Abstract
图像分类产生的CAM图通常集中于discriminative区域。作者提出了C2AM模型,使用未标记图像训练 获得类不可知激活图(Class-agnostic Activation Map)。
作者的idea主要是:1)前景对象和背景对象的语义信息通常差距较大。2)颜色或者纹理相近的前景或者背景对象有相似的表征。
作者将这些关系梳理成正负对,然后利用对比学习分离前景和背景。
Introduction
(现存的方法及优缺点)WSOL和WSSS常用CAM的方法,但是单纯的CAM很稀疏且仅仅把焦点集中在discriminative regions。一些其他方法也用来缓解这个问题,但是大多数接受图像级监督,这可能会影响CAM的完整性(很难完整的估计整个CAM)。
(作者的方法的介绍)作者采用了前景和背景对比学习的方法生成类不可知图像(C2AM),类不可知图像是不显示类别的,只区分前景和背景(figure2)。具体的,作者首先使用激活图生成类不可知图像,然后根据前景图像和背景图像之间的语义信息差距很大,前景与前景、背景和背景之间差距较小的原理构造正负对,进行监督训练。其次,作者构造了基于特征相似度的方法来生成权重,以保证颜色和纹理较为相似的正对获得较高的训练权重。
(对比学习的效果)当应用对比损失拉近并推开正负对的表示时,类不可知激活图逐渐分离出图像中的前景对象和背景区域。
3. Methodology
3.1. Architecture
首先输入图像 { X i } i = 1 n {\{ X_i\}}_{i=1}^n {Xi}i=1n,然后使用ResNet或者VGG作为Encoder,获得特征 { Z i } i = 1 n {\{ Z_i\}}_{i=1}^n {Zi}i=1n。接着使用3×3卷积+batchnorm作为激活头 φ ( ) ˙ \varphi(\dot) φ()˙,获得Class-agnostic Activation Map { P i } i = 1 n {\{ P_i\}}_{i=1}^n {Pi}i=1n,则前景和背景图像可以分别表示为 P i P_i Pi和 1 − P i 1-P_i 1−Pi。根据前景和背景 P i P_i Pi和 1 − P i 1-P_i 1−Pi对特征图 Z Z Z进行划分:
3.2. Foreground-background Contrast
(前景与背景之间的对比学习)这两者的差距应当越大越好,作者的损失由余弦相似度计算而来:
这里的负对不仅仅只同一张图形的,也可以是不同图像之间的。
3.3. Foreground-foreground and Background background Contrast with Rank Weighting
正对的组合有很多,但颜色或者纹理相似的的正对才应该被拉在一起。作者设计了一个基于特征相似性的加权方法,来减小那些不同的正对对网络的影响。
首先计算候选正对之间的相似度:
将他们组成一个集合,按照大小进行排序,前景对和背景对的集合:
对集合的元素排序后按照如下公式计算权重:
较高的权重分配给相似性较高的正对中,最终的对比学习损失函数的计算公式:
总的损失函数是正对和负对的和:
**How to determine foreground regions.**在这个最后训练出来的class-agnostic activation maps上加一个阈值(超参数),检测最大的轮廓来确定对象区域。
3.5. Weakly Supervised Semantic Segmentation
作者首先使用基于CAM的方法获得CAM,然后然后应用C2AM对其进行细化。具体的,作者使用背景激活图 ( 1 − P ) (1−P) (1−P)作为伪标签,进一步训练一个模型来预测图像中的背景区域,即背景线索。将预测的背景线索与初始CAM连接起来,并沿着通道维度执行argmax过程,以细化初始CAM。这有助于减少背景的错误激活,并在初始CAM中激活更多的前景区域。
Experiments
更多推荐
所有评论(0)