1. Abstract
内容亲和性损失(content affinity loss)是导致photorealistic 风格迁移和视频风格迁移出现伪影的主要问题。▼
在风格迁移中,我们希望保持图像的基本结构和内容信息(例如物体的形状、轮廓等)不被过度改变。然而,在进行风格迁移时,尤其是在实现高度逼真的视觉效果时,模型可能会丢失原始图像或视频中相邻像素或特征之间的相似性关系(即“内容亲和力”),这会导致视觉伪影或图像失真。内容亲和性损失包括:特征亲和性、像素亲和性 ▼
- 像素亲和力:相邻的像素往往具有某种关联性或相似性。例如,在一张连续的天空图像中,相邻像素的颜色和亮度通常是相似的;在一张物体的轮廓边缘,可能相邻像素的颜色会迅速变化。这种像素之间的关联性或相似性就叫做“**像素亲和力**”。
- 如果图像中相邻像素颜色差别很小,那么它们具有很高的亲和力(例如蓝天、草地等平滑区域)。
- 如果相邻像素颜色差别很大,那么亲和力较低(例如物体的边界、纹理复杂的区域)。
- 如果忽视这种像素亲和力,可能会导致生成的图像中出现“色块”或边缘断裂等不自然现象。这些问题会让图像看起来不连续、不连贯。
- 特征亲和力:在更高层次的抽象特征上,相邻区域或局部区域的特征如何保持一致。特征是在图像处理和深度学习模型中,从像素中提取出来的更复杂的模式和信息,如物体的形状、纹理、边缘等。
- 在一张猫的图像中,猫脸上不同区域的特征(如眼睛、耳朵、鼻子等)可能具有很强的关联性,这些特征会一起构成猫脸的整体形象。
- 在自然风景中,山、水、树木等区域的特征也应该在某种程度上保持相互一致。
- 如果忽视特征亲和力,可能会导致内容失真,最终生成的图像无法保留原始图像的关键结构。例如,猫的脸可能会在迁移过程中变得扭曲或不连贯。
本文提出了一种新的风格转换框架CAP-VSTNet包含 一个新的可逆残差网络和一个无偏线性变换模块
- 可逆残差网络既能保持内容的亲和力,又不会像传统可逆网络那样引入冗余信息,有利于更好地进行风格化。