论文笔记 -- Contrastive Clustering（对比聚类）

文章目录Contrastive Clustering文章介绍问题背景拟解决问题联合优化的应用主要贡献相关工作对比学习深度聚类实例级和聚类级的含义提出的方法模型结构PCB模块ICH模块CCH模块算法流程损失构建实验数据集介绍实验结果类簇演化过程数据增强的消融实验两种对比方式的消融实验不同数据增强方式的消融实验个人观点Contrastive Clustering文章介绍**出处：**AAAI-2021

博o_Oer~

12634人浏览 · 2022-03-21 22:24:39

博o_Oer~ · 2022-03-21 22:24:39 发布

Contrastive Clustering

文章介绍

出处： AAAI-2021

摘要：本文提出了一种称为对比聚类（CC）的单阶段在线聚类方法，该方法采用实例级和聚类级的对比学习。具体来说，对于给定的数据集，正实例对和负实例对是通过数据扩充构建然后投影到特征空间中。其中，实例级和聚类级对比学习分别在行和列空间中进行，通过最大化正对的相似性，最小化负对的相似性进行对比聚类。得出的结论为，特征矩阵的行可以被视为实例的软标签，相应地，列可以被视为聚类表示。通过同时优化实例和聚类级对比损失，该模型以端到端的方式联合学习表示和聚类分配。

问题背景

大部分聚类算法在复杂数据集上的表现都很差
大部分深度聚类方法无法满足在线聚类需求

拟解决问题

现有的大部分深度聚类算法需要迭代进行表示学习和聚类这两个过程，利用聚类结构来优化表示，再对更优的表示进行聚类，迭代聚类的过程中容易出现误差累计（联合优化）
聚类过程通常采用k-means等需要全局相似性的算法，使得需要数据全部准备好后才能进行聚类工作，故面临不能处理在线数据的局限性

联合优化的应用

A Deep Neural Network for Unsupervised Anomaly Detection and Diagnosis in Multivariate Time Series Data（AAAI-2019） MESCRED 时间序列异常检测，对异常检测、异常原因识别、异常严重程度进行联合处理
Learning Representations for Incomplete Time Series Clustering （AAAI-2021）CRLI 不完整时间序列聚类，将不完整时间序列补全和表示学习进行联合优化
Contrastive Clustering 本文做到了将表示学习和聚类进行联合优化

主要贡献

基于“标签即表示”的思想，即特征矩阵的行和列本质上分别对应于实例和集群表示，将聚类任务统一到表示学习框架下，对每个样本学习其聚类软标签作为特征表示
该方法不仅在实例层面上进行对比学习，而且在聚类层面上进行对比学习，这种双重对比学习框架可以产生聚类偏好表征
该模型采用单阶段、端到端的工作方式，只需批量优化，因此可以应用于大规模数据集，并且该方法可以在不访问整个数据集的情况下及时预测每个新数据点的聚类分配，适合在线场景

提出的方法

模型结构

请添加图片描述

模型分为三个模块样本对构建模块（PCB）、实例级对比模块（ICH）、聚类级对比模块（CCH）

PCB模块

使用数据扩充方式构建数据对，给定一个数据实例 $x_i$ 和两种数据增强方式 $T_a,T_b$ ，得到两个相关样本（正样本） $x_i^a,x_i^b$ ，使用了五种类型的数据增强方法，包括调整作物、色抖动、灰度、水平翻转和高斯模糊，以一定的概率独立地应用每个增强量。利用一个共享的深度神经网络 $f(\cdot)$ ，通过 $h^a_i=f(x^a_i)$ 和 $h^b_i=f(x^b_i)$ 从增强的样本中提取特征。本文中采用ResNet34进行数据特征提取。

ICH模块

给定一个大小为 $N$ 的batch，每个样本 $x_i$ 通过两种数据扩充方式得到 $2 N$ 个样本对 $x_1^a,x_2^a,x_N^a,\dots,x_1^b,x_2^b,x_N^b$ ，其中的正样本选择为 $x_i^a,x_i^b$ ，其余样本为负样本，这样每个输入样本有一个正样本对，和 $2 N - 2$ 个负样本。为了减轻对比损失引起的信息损失，不直接对特征矩阵进行对比学习。堆叠了一个两层非线性MLP $g_I(\cdot)$ ，通过 $z_i^a=g_I(h^a_i)$ 将特征矩阵映射到一个子空间。样本对的相似性是用余弦距离来衡量的，即：

请添加图片描述

为了优化成对相似性，在不丧失一般性的情况下，给定样本 $x^a_i$ 的损失形式为：

请添加图片描述

其中， $\tau _I$ 为实例级对比中超参数（control the softness），由于我们希望识别数据集上的所有正对，因此在每个增强样本上计算实例级的对比损失，即：

请添加图片描述

CCH模块

按照“标签为表示”的思想，当将数据样本投影到一个维数等于簇数的空间时，其特征的第i个元素可以解释为其属于第i个簇的概率，特征向量相应地表示其软标签。

类簇级的对比抽取批量数据的表示矩阵，表示矩阵的行编码为one-hot形式，列为每个样本属于这一类的概率。与实例级对比类似，非线性MLP $g_C(\cdot)$ ，通过 $z_i^a=g_C(h^a_i)$ 将特征矩阵映射到一个子空间，其中 $y_i^a$ 为$ x_i^{a$的软标签，数据$x}a_i $通过数据增强转换为$ x_i^a,x_ib $，这样就可以得到一个正例的软标签组$ y_i^a,y_ib$，和 $2 N - 2$ 个负例的软标签组。使用余弦距离来衡量聚类对之间的相似性，即：