一篇CVPR2022上的论文,用于弱监督定位和弱监督分割

论文标题:

C2AM: Contrastive learning of Class-agnostic Activation Map for Weakly Supervised Object Localization and Semantic Segmentation

作者信息:

在这里插入图片描述

代码地址:

https://github.com/CVI-SZU/CCAM

论文链接:

https://arxiv.org/pdf/2203.13505.pdf

Abstract

图像分类产生的CAM图通常集中于discriminative区域。作者提出了C2AM模型,使用未标记图像训练 获得类不可知激活图(Class-agnostic Activation Map)。
作者的idea主要是:1)前景对象和背景对象的语义信息通常差距较大。2)颜色或者纹理相近的前景或者背景对象有相似的表征。
作者将这些关系梳理成正负对,然后利用对比学习分离前景和背景。

Introduction

(现存的方法及优缺点)WSOL和WSSS常用CAM的方法,但是单纯的CAM很稀疏且仅仅把焦点集中在discriminative regions。一些其他方法也用来缓解这个问题,但是大多数接受图像级监督,这可能会影响CAM的完整性(很难完整的估计整个CAM)。
在这里插入图片描述
(作者的方法的介绍)作者采用了前景和背景对比学习的方法生成类不可知图像(C2AM),类不可知图像是不显示类别的,只区分前景和背景(figure2)。具体的,作者首先使用激活图生成类不可知图像,然后根据前景图像和背景图像之间的语义信息差距很大,前景与前景、背景和背景之间差距较小的原理构造正负对,进行监督训练。其次,作者构造了基于特征相似度的方法来生成权重,以保证颜色和纹理较为相似的正对获得较高的训练权重。
(对比学习的效果)当应用对比损失拉近并推开正负对的表示时,类不可知激活图逐渐分离出图像中的前景对象和背景区域。

3. Methodology

在这里插入图片描述

3.1. Architecture

首先输入图像 { X i } i = 1 n {\{ X_i\}}_{i=1}^n {Xi}i=1n,然后使用ResNet或者VGG作为Encoder,获得特征 { Z i } i = 1 n {\{ Z_i\}}_{i=1}^n {Zi}i=1n。接着使用3×3卷积+batchnorm作为激活头 φ ( ) ˙ \varphi(\dot) φ()˙,获得Class-agnostic Activation Map { P i } i = 1 n {\{ P_i\}}_{i=1}^n {Pi}i=1n,则前景和背景图像可以分别表示为 P i P_i Pi 1 − P i 1-P_i 1Pi。根据前景和背景 P i P_i Pi 1 − P i 1-P_i 1Pi对特征图 Z Z Z进行划分:
在这里插入图片描述
在这里插入图片描述

3.2. Foreground-background Contrast

(前景与背景之间的对比学习)这两者的差距应当越大越好,作者的损失由余弦相似度计算而来:
在这里插入图片描述
这里的负对不仅仅只同一张图形的,也可以是不同图像之间的。

3.3. Foreground-foreground and Background background Contrast with Rank Weighting

正对的组合有很多,但颜色或者纹理相似的的正对才应该被拉在一起。作者设计了一个基于特征相似性的加权方法,来减小那些不同的正对对网络的影响。
首先计算候选正对之间的相似度:
在这里插入图片描述
将他们组成一个集合,按照大小进行排序,前景对和背景对的集合:
在这里插入图片描述
在这里插入图片描述
对集合的元素排序后按照如下公式计算权重:
在这里插入图片描述
较高的权重分配给相似性较高的正对中,最终的对比学习损失函数的计算公式:
在这里插入图片描述
在这里插入图片描述
总的损失函数是正对和负对的和:
在这里插入图片描述
**How to determine foreground regions.**在这个最后训练出来的class-agnostic activation maps上加一个阈值(超参数),检测最大的轮廓来确定对象区域。

3.5. Weakly Supervised Semantic Segmentation

作者首先使用基于CAM的方法获得CAM,然后然后应用C2AM对其进行细化。具体的,作者使用背景激活图 ( 1 − P ) (1−P) (1P)作为伪标签,进一步训练一个模型来预测图像中的背景区域,即背景线索。将预测的背景线索与初始CAM连接起来,并沿着通道维度执行argmax过程,以细化初始CAM。这有助于减少背景的错误激活,并在初始CAM中激活更多的前景区域。
在这里插入图片描述

Experiments

在这里插入图片描述
在这里插入图片描述

Logo

欢迎加入 MCP 技术社区!与志同道合者携手前行,一同解锁 MCP 技术的无限可能!

更多推荐