Исследование и разработка стратегии маскирования изображений для повышения эффективности масочного автоэнкодера

Основное содержимое статьи

М. Л. Килина
Д. Ю. Буряк

Аннотация

Работа посвящена проблеме повышения эффективности масочного автоэнкодера за счет разработки стратегии маскирования изображений, которая учитывала бы расположение объектов на изображении и позволяла бы скрыть как можно меньше семантически важной информации. В статье представлен обзор существующих методов маскирования изображений, включая стратегии как с учетом, так и без учета структуры изображения. Предложена стратегия наложения масок на основе алгоритма поиска объектов, анализирующего элементарные характеристики фрагментов изображений. Исследование проводится на примере масочного автоэнкодера с ViT в качестве энкодера. Сравнивается эффективность обучения энкодера с использованием предложенной стратегии и с использованием стратегии случайного маскирования изображений.

Скачивания

Данные скачивания пока недоступны.

Информация о статье

Как цитировать
[1]
Килина, М.Л. и Буряк, Д.Ю. 2025. Исследование и разработка стратегии маскирования изображений для повышения эффективности масочного автоэнкодера. Системный анализ в науке и образовании. 1 (апр. 2025), 8–15.
Выпуск
Раздел
Моделирование и анализ данных

Библиографические ссылки

Attention Is All You Need / Ashish Vaswani, Noam Shazeer, Niki Parmar [et al.] // Advances in Neural Information Processing Systems. – 2017. – Vol. 30.

Beit: Bert pre-training of image transformers / H. Bao , L. Dong, S. Piao , F. Wei // arXive.org e-Print archive. – arXiv:2106.08254 (2021).

Masked autoencoders are scalable vision learners / K. He, X. Chen, S. Xie [et al.] // Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. – 2022. – Pp. 16000–16009.

Mst: Masked self-supervised trans former for visual representation / Zhaowen Li, Zhiyang Chen, Fan Yang [et al.] // Advances in Neural Information Processing Systems. – 2021. – Vol. 34. – Pp. 13165-13176.

Nguyen K. B., Park C. J. Symmetric masking strategy enhances the performance of Masked Image Modeling // ICPR – 2024.

Selective Search for Object Recognition /J. R. R. Uijlings, K. E. A. van de Sande, T. Gevers, A. W. M. Smeulders // International Journal of Computer Vision. – 2013. – Vol.104. – Pp. 154-171.

Felzenszwalb P. F., Huttenlocher D. P. Efficient Graph-Based Image Segmentation // IJCV. – 2004. – Vol. 59. – Pp. 167–181.

Tiny-Imagenet-200 // CS231n: Deep Learning for Computer Vision. – URL: https://cs231n.stanford.edu/tiny-imagenet-200.zip (дата обращения 25.03.2025).

An image is worth 16x16 words: Transformers for image recognition at scale / A. Dosovitskiy, L. Beyer, A. Kolesnikov [et al.] // arXive.org e-Print archive. – arXiv:2010.11929 (2020).

Krizhevsky, Alex. CIFAR-10 and CIFAR-100 datasets. – URL: https://www.cs.toronto.edu/~kriz/cifar.html (дата обращения 25.03.2025).