Применение методов глубокого обучения в задачах сегментации текстовых изображений
Основное содержимое статьи
Аннотация
Работа посвящена решению задачи сегментации текстовых изображений, целью которой является выделение на изображении документа текстовых блоков, соответствующих колонкам, заголовкам, колонтитулам и т.д. Проводится обзор существующих методов сегментации изображений, в том числе предназначенных и для поиска и выделения на изображениях текстовых блоков. Анализируются как классические методы, так и методы, основанные на использовании искусственных нейронных сетей. Для решения поставленной задачи предлагается подход на основе свёрточных нейронных сетей и модели U-Net. Описывается метод автоматической генерации обучающих примеров для обучения нейронной сети. Рассматривается процессы настройки модели, её обучения и тестирования. Приводятся результаты численного исследования обученных моделей на реальных данных.
Скачивания
Информация о статье
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Библиографические ссылки
Shapiro L. G. Computer Vision / L. G. Shapiro, G. C. Stockman. Prentice Hall, 2001.
Ronneberger O., Fischer P., Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation // Medical Image Computing and Computer-Assisted Intervention, MICCAI 2015. Vol. 935. P. 234–241. DOI: 10.1007/978-3-319-24574-4_28.
Sezgin M., Sankur B. Survey over image thresholding techniques and quantitative performance evaluation // Journal of Electronic Imaging. 2004. Vol. 13 (1). P. 146-168. DOI: 10.1117/1.1631315.
Comaniciu D., Meer P. Mean Shift: A Robust Approach Toward Feature Space Analysis // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2002. Vol. 24, No. 5. P. 603–619. DOI: 10.1109/34.1000236.
Shi Jianbo, Malik J. Normalized Cuts and Image Segmentation // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2000. Vol. 22, No. 8. P. 888–905. DOI: 10.1109/34.868688
Barghout L. Visual Taxometric approach Image Segmentation using Fuzzy-Spatial Taxon Cut Yields Contextually Relevant Regions // Communications in Computer and Information Science (CCIS). Springer-Verlag. 2014.
Badrinarayanan V., Kendall A., Cipolla R. SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation // IEEE Transactions on Pattern Analysis and Machine Intelli-gence. 2017. Vol. 39, No. 12. P. 2481-2495. DOI: 10.1109/TPAMI.2016.2644615.
Vision AI: Image & Visual AI Tools | Google Cloud. URL: https://cloud.google.com/vision (дата обращения: 10.06.2024).
docWizz | CCS. CCS Content Conversion Specialists Gmb, [2024]. URL: https://content-conversion.com/software/docwizz/ (дата обращения: 10.06.2024).
Book Scan Processing Print Press Edition | АЛАНИС Софтвер. URL: https://alanissoftware.wordpress.com/bsp-ppe-book-scan-processing-print-press-edition/ (дата об-ращения: 10.06.2024).
The Newspaper Navigator Dataset: Extracting And Analyzing Visual Content from 16 Million Historic Newspaper Pages in Chronicling America / B. Lee, J. Mears, E. Jakeway [et al.] // arXive.org e-Print archive. DOI: 10.48550/arXiv.2005.01583.
U-NET for brain MRI | PyTorch. The Linux Foundation, [2024]. URL: https://pytorch.org/hub/mateuszbuda_brain-segmentation-pytorch_unet/ (дата обращения: 10.06.2024).
GitHub - AnnaBurikova / TextBlocksDetection. GitHub, Inc., 2024. URL: https://github.com/AnnaBurikova/TextBlocksDetection (дата обращения: 10.06.2024).