Связывание текстовых записей в задаче интеграции данных в условиях больших данных

Основное содержимое статьи

В.В. Папоян
В.В. Кореньков
И.С. Кадочников

Аннотация

При интеграции данных из нескольких источников появляется проблема выявления идентичных записей, то есть относящихся к одному и тому же объекту реального окружения. Одно из решений вышеуказанной проблемы осуществляется с помощью вероятностного подхода связывания текстовых записей. В рамках настоящей статьи определено и апробировано, что для эффективной реализации вышеуказанного решения необходимо применить локально-чувствительное хеширование и представить целевой атрибут в векторной модели на этапе блокирования данных. Реализация выявленного подхода была протестирована на двух реестрах компаний Companies House и GLEIF в платформе обработки больших данных Apache Spark.

Скачивания

Данные скачивания пока недоступны.

Информация о статье

Как цитировать
[1]
Папоян , В., Кореньков, В. и Кадочников, И. 2021. Связывание текстовых записей в задаче интеграции данных в условиях больших данных. Системный анализ в науке и образовании. 3 (сен. 2021), 65–70.
Раздел
Статьи

Библиографические ссылки

Sayers A., Ben-Shlomo Y., Blom A. W., Steele F. Probabilistic record linkage. International Journal of Epidemiology, 2016. – Vol. 6. P. 954-964.

Jure Leskovec, Anand Rajaraman, Jeff Ullman. Mining of Massive Datasets.: Cambridge University Press, 2014. – Глава. 3.4.

ZHANG Yun-tao, GONG Ling, Wang Yong-cheng. Journal of Zhejiang University SCIENCE, 2005. – Vol. 45. – Issue. 1. P. 49-55. ISSN: 1009-3095.

William B. Canvar, John M. Trenkle. Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval, Las Vegas, US, 1994. P. 161-175.

Companies House [Электронный ресурс] // Free Company Data Product – Режим доступа: http://download.companieshouse.gov.uk/en_output.html, свободный (дата обращения 01.07.2019).

LEI Data [Электронный ресурс] // Download the Concatenated Files – Режим доступа:

https://www.gleif.org/en/lei-data/gleif-concatenated-file/download-the-concatenated-file/, свободный (дата обращения 01.07.2019).

Apache Spark [Электронный ресурс] // Unified analytics engine for large-scale data processing. – Режим доступа: https://spark.apache.org/, свободный (дата обращения 01.07.2019).

Наиболее читаемые статьи этого автора (авторов)