将图像==分割==成固定大小的块,线性嵌入每个块,添加==position embeddings==,并将生成的矢量序列馈送到标准==Transformer encoder==。为了执行分类,我们使用标准方法向序列中添加额外的可学习分类标记==class token==。 在之后添加dropout连接LN层接上Transformer