对比学习

2024-10-16

1）SimCLRv2

例如你想分类猫和狗，你有一堆图片，但是没有标签。
1. 对图片x进行数据增广：黑白（xi)、反转(xj)…
2. xi和xj相互称为Positive Pairs，他们来自同一个图片x
3. 来源不同的两张图称为negative pairs
4. 将图片输入网络，希望网络学习到Positive Pairs是相似的，negative pairs是不相似的。
对比学习的三个步骤：
1. 数据扩增（Data augmentation）
2. Encoding（将数据转换成representation）
3. Loss minimization（比较特征向量的相似性）
  - 向量的相似性可以用夹角余弦值
损失函数（ infoNCE loss ）： $l_ { i , j } = -log \space \frac{ exp( sim( z_ i, z_ j) / \tau) }{ \sum_ { k=1 } ^ {2N } 1_ { [k \neq i] } exp( sim ( z_i, z_ k ) / \tau ) }$
- N：batch size，对于N个样本，通过数据增强得到N对正样本对（2N个）。对于正样本对xi和xj其他2(N-1)个样本都是负样本。
- sim计算相似度，可以用余弦相似度。
- 负样本只出现在分母上，可见要使损失最小，则正样本相似度必须大，负样本相似度必须小。