Vision Transformer (ViT) нь компьютерийн харааны хамгийн сүүлийн үеийн архитектур бөгөөд дүрс таних янз бүрийн ажлуудад өргөн хэрэглэгдэж байгаа Convolutional Neural Networks (CNN) тэй өрсөлдөхүйц чадвартай архитектур болж гарч ирсэн.
Хэдийгээр CNN нь олон жилийн турш компьютерийн харааны салбарт ноёрхож байсан ч ViT шинэ загварууд нь тооцооллын үр ашиг, нарийвчлалын хувьд бараг дөрөв дахин илүү үр дүнг үзүүлж, компьютерийн харааны олон ажил дээр илүү сайн гүйцэтгэлтэй болсон.
ViT загварыг 2021 онд ICLR 2021 дээр хэвлэгдсэн "An Image is Worth 16*16 Words: Transformers for Image Recognition at Scale" сэдэвт эрдэм шинжилгээний илтгэлд танилцуулсан.
ViT нь объект илрүүлэх, дүрсийг сегментчлэх, дүрс ангилах, үйлдэл таних зэрэг даалгавруудад өргөн хэрэглэгддэг.
Эх сурвалж: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale.
arXiv preprint arXiv:2010.11929.
Мэдээ бэлтэгсэн: Мэдээллийн технологийн салбарын ЭША Б. Номуундалай