Vision Transformer

在深度学习领域，卷积神经网络（CNN）是处理图像任务的主流模型。然而，CNN的局限性在于其固定的局部感受野和全局池化操作，这使得CNN在处理长距离依赖的任务上表现不佳。而自然语言处理领域，由于序列模型（如LSTM、Transformer）的成功应用，使得人们开始思考是否可以将序列模型应用到图像领域。因此，Vision Transformer（ViT）应运而生。

方法

ViT的核心思想是将图像分割成固定大小的图块，然后将这些图块展平成一维向量，作为输入序列。然后将这些序列输入到Transformer模型中，通过多层的Transformer模型来学习图像的表示。ViT的结构如下图所示：
Vision Transformer
可以看到，基本上就是原始的Transformer Encoder模型，只是将输入从文本序列变成了图像序列。将图片大小分割成固定大小的图块，然后将这些图块展平成一维向量，加入位置编码信息，然后输入到Transformer模型中。位置编码采用了Bert的思想，位置编码是通过模型学习得到的，并且在输入序列的开头默认加入了一个特殊的CLS token（类似于Bert中的[CLS]），用于表示整个图像的信息。下游任务可以使用CLS token的输出，经过一定的变化，来进行完成特定的任务。比如分类任务，可以直接使用CLS token的输出，然后通过一个MLP来完成分类任务。
其实ViT的思想早就有人写过论文了，只不过是在小的数据集上，图像大小为3232，分成的patch大小为22，然后输入到Transformer模型中。但是由于计算资源有限，所以没有扩展到大数据集上，直到ViT的出现，让该思想在大数据集上得到了很好的效果，引起了人们的关注。