【论文阅读】C2AM: Contrastive learning of Class-agnostic Activation Map for WSOL and SS

图像分类产生的CAM图通常集中于discriminative区域。作者提出了C2AM模型，使用未标记图像训练获得类不可知激活图(Class-agnostic Activation Map)。作者的idea主要是：1)前景对象和背景对象的语义信息通常差距较大。2）颜色或者纹理相近的前景或者背景对象有相似的表征。作者将这些关系梳理成正负对，然后利用对比学习分离前景和背景。

阿委困的不能行

1215人浏览 · 2023-02-27 17:11:42

阿委困的不能行 · 2023-02-27 17:11:42 发布

一篇CVPR2022上的论文，用于弱监督定位和弱监督分割

论文标题：

C2AM: Contrastive learning of Class-agnostic Activation Map for Weakly Supervised Object Localization and Semantic Segmentation

作者信息：

在这里插入图片描述

代码地址：

https://github.com/CVI-SZU/CCAM

论文链接：

https://arxiv.org/pdf/2203.13505.pdf

Abstract

图像分类产生的CAM图通常集中于discriminative区域。作者提出了C2AM模型，使用未标记图像训练获得类不可知激活图(Class-agnostic Activation Map)。
作者的idea主要是：1)前景对象和背景对象的语义信息通常差距较大。2）颜色或者纹理相近的前景或者背景对象有相似的表征。
作者将这些关系梳理成正负对，然后利用对比学习分离前景和背景。

Introduction

（现存的方法及优缺点）WSOL和WSSS常用CAM的方法，但是单纯的CAM很稀疏且仅仅把焦点集中在discriminative regions。一些其他方法也用来缓解这个问题，但是大多数接受图像级监督，这可能会影响CAM的完整性（很难完整的估计整个CAM）。
在这里插入图片描述
（作者的方法的介绍）作者采用了前景和背景对比学习的方法生成类不可知图像（C2AM）,类不可知图像是不显示类别的，只区分前景和背景（figure2）。具体的，作者首先使用激活图生成类不可知图像，然后根据前景图像和背景图像之间的语义信息差距很大，前景与前景、背景和背景之间差距较小的原理构造正负对，进行监督训练。其次，作者构造了基于特征相似度的方法来生成权重，以保证颜色和纹理较为相似的正对获得较高的训练权重。
（对比学习的效果）当应用对比损失拉近并推开正负对的表示时，类不可知激活图逐渐分离出图像中的前景对象和背景区域。

3. Methodology

在这里插入图片描述

3.1. Architecture

首先输入图像 ${\{ X_i\}}_{i=1}^n$ ，然后使用ResNet或者VGG作为Encoder，获得特征 ${\{ Z_i\}}_{i=1}^n$ 。接着使用3×3卷积+batchnorm作为激活头 $\varphi(\dot)$ ，获得Class-agnostic Activation Map ${\{ P_i\}}_{i=1}^n$ ，则前景和背景图像可以分别表示为 $P_i$ 和 $1-P_i$ 。根据前景和背景 $P_i$ 和 $1-P_i$ 对特征图 $Z$ 进行划分：
在这里插入图片描述

3.2. Foreground-background Contrast

（前景与背景之间的对比学习）这两者的差距应当越大越好，作者的损失由余弦相似度计算而来：
在这里插入图片描述
这里的负对不仅仅只同一张图形的，也可以是不同图像之间的。

3.3. Foreground-foreground and Background background Contrast with Rank Weighting

正对的组合有很多，但颜色或者纹理相似的的正对才应该被拉在一起。作者设计了一个基于特征相似性的加权方法，来减小那些不同的正对对网络的影响。
首先计算候选正对之间的相似度：
在这里插入图片描述
将他们组成一个集合，按照大小进行排序，前景对和背景对的集合：

对集合的元素排序后按照如下公式计算权重：

较高的权重分配给相似性较高的正对中，最终的对比学习损失函数的计算公式：

总的损失函数是正对和负对的和：
在这里插入图片描述
**How to determine foreground regions.**在这个最后训练出来的class-agnostic activation maps上加一个阈值（超参数），检测最大的轮廓来确定对象区域。

3.5. Weakly Supervised Semantic Segmentation

作者首先使用基于CAM的方法获得CAM，然后然后应用C2AM对其进行细化。具体的，作者使用背景激活图 $(1 - P)$ 作为伪标签，进一步训练一个模型来预测图像中的背景区域，即背景线索。将预测的背景线索与初始CAM连接起来，并沿着通道维度执行argmax过程，以细化初始CAM。这有助于减少背景的错误激活，并在初始CAM中激活更多的前景区域。
在这里插入图片描述