DeiT 是一个全 Transformer 的架构。其核心是提出了针对 ViT 的教师-学生蒸馏训练策略,并提出了 token-based distillation 方法,使得 Transformer 在视觉领域训练得又快又好。
论文:[《Training data-efficient image transformers & distillation through attention》](https://arxiv.org/abs/2012.12877)
开源模型链接:https://github.com/facebookresearch/deit/blob/main/README_deit.md
数据集(ImageNet):http://www.image-net.org/