图像修复是一项重要的计算机视觉任务,旨在通过自动填充缺失或损坏的图像区域,使图像恢复完整和无缺陷。现有的方法主要依赖于卷积神经网络(CNN)在理解高级语义方面的优势。然而,最近的研究表明,将Transformer模型应用于视觉领域可以解决卷积核无法关注到远距离信息的问题。论文提出了一种全新的语义感知的Transformer模型,该模型不仅包含了之前视觉Transformer中的自注意力模块,还引入了一个用于感知整个数据集的语义特征的注意力模块。此外,论文对VQ-VAE模型做出改进,设计Quantized Semantic Vector Memory(QSVM)来实现对整个数据集中的图像的高级特征的提取和保存。通过在不同数据集上进行的实验,论文验证了其方法的有效性和优越性,与现有的先进方法相比取得了更好的修复效果。
图1 论文中提出模型的结构图
图2 参会现场海报展示
图3 参会现场与其他参会人员进行像学术讨论
创建: Apr 27, 2024 | 17:47