Vision Transformers (Ilya Kontaev, Xperience AI)

Семинар Ильи Контаева (Xperience AI). За последние несколько лет архитектуры на базе Transformer заняли важное место в задачах обработки естественного языка. Однако использование механизма self-attention в задачах компьютерного зрения ограничено из-за квадратичной сложности данной операции. В семинаре рассмотрены основные идеи и трюки, использованные в Vision Transformer (ViT), которые позволяют решать задачу классификации изображений без использования свёрточных слоёв. Также кратко рассмотрены архитектуры, которые используют ViT в таких задачах как детектирование объектов (Swin Transformer) и генерация изображений (TransGAN).

60 views