Система искусственного интеллекта для классификации документов сложной структуры

Основное содержимое статьи

Е. А. Бутенко
А. М. Задорожный
Н. Я. Любовинкина
С. В. Потемкина

Аннотация

В работе представлен метод восстановления логической связности текстов, полученных в после применения методов оптического распознавания текстов (OCR) для классификации отсканированных копий деловой документации. Метод включает два этапа. Вначале проводят предварительную сегментацию интересующих областей средствами сверточной нейронной сети (CNN) глубокого обучения с архитектурой yolo. Полученная в результате информация позволяет восстановить логическую связность текста документа. Затем тот же подход применяется для сопоставления названия атрибута и его значения для одного из распространенных видов их представления в виде 2-х колонок: колонки имен и колонки значений. Метод успешно решает задачи классификации документов и извлечения ключевых атрибутов в контексте системы электронного документооборота.

Скачивания

Данные скачивания пока недоступны.

Информация о статье

Как цитировать
1.
Бутенко ЕА, Задорожный АМ, Любовинкина НЯ, Потемкина СВ. Система искусственного интеллекта для классификации документов сложной структуры. Системный анализ в науке и образовании [Интернет]. 19 май 2023 г. [цитируется по 15 июль 2024 г.];(1):7-12. доступно на: https://sanse.ru/index.php/sanse/article/view/567
Выпуск
Раздел
Системный анализ в прикладных задачах

Библиографические ссылки

Visual document understanding // John Snow Labs | NLP & AI in Heathcare / John Snow Labs Inc. - [Lewes], 2023. – URL: https://nlp.johnsnowlabs.com/docs/en/ocr_visual_document_understanding (дата обращения 02.02.2023).

Yu M. YOLOv4 transfer learning for scanned document structure recognition// Medium : [сайт ]. - Дата публикации: 27.07.2020. – URL: https://mingzhi2.medium.com/yolov4-transfer-learning-for-scanned-document-structure-recognition-dc3fc8bfe426/.

Segmentation of Scanned Documents Using Deep-Learning Approach / P. Forczmański , A. Smoliński, A. Nowosielski, K. Małecki // Advances in Intelligent Systems and Computing. – 2020. – Vol. 977. – Pp. 141-152. – DOI: https://doi.org/10.1007/978-3-030-19738-4_15

Deep learning for table detection and structure recognition: A survey / M. Kasem, A. Abdallah, A. Berendeyev, E. Elkady, [et al.]. // arXiv.org : [open archive]. – 2022. – arXiv:2211.08469 [cs.CV]. – URL: https://arxiv.org/abs/2211.08469. – Submitted on 15 Nov 2022.

Automated hierarchical classification of scanned documents using convolutional neural network and regular expression / R. Arief, A. B. Mutiara, T. M. Kusuma, H. Hustinawati // International Journal of Electrical and Computer Engineering. – 2022. – Vol. 12(1). – Pp. 1018-1029. – DOI:10.11591/ijece.v12i1.pp1018-1029.

yolov5 : [project] / Ultralytics // GitHub : [web platform]. – GitHub, Inc., 2023. – URL: https://github.com/ultralytics/yolov5?ysclid=lg9f94vy90429921472 (дата обращения: 27.02.2022).

Наиболее читаемые статьи этого автора (авторов)