Связывание текстовых записей в задаче интеграции данных в условиях больших данных
Основное содержимое статьи
Аннотация
При интеграции данных из нескольких источников появляется проблема выявления идентичных записей, то есть относящихся к одному и тому же объекту реального окружения. Одно из решений вышеуказанной проблемы осуществляется с помощью вероятностного подхода связывания текстовых записей. В рамках настоящей статьи определено и апробировано, что для эффективной реализации вышеуказанного решения необходимо применить локально-чувствительное хеширование и представить целевой атрибут в векторной модели на этапе блокирования данных. Реализация выявленного подхода была протестирована на двух реестрах компаний Companies House и GLEIF в платформе обработки больших данных Apache Spark.
Скачивания
Информация о статье
Библиографические ссылки
Sayers A., Ben-Shlomo Y., Blom A. W., Steele F. Probabilistic record linkage. International Journal of Epidemiology, 2016. – Vol. 6. P. 954-964.
Jure Leskovec, Anand Rajaraman, Jeff Ullman. Mining of Massive Datasets.: Cambridge University Press, 2014. – Глава. 3.4.
ZHANG Yun-tao, GONG Ling, Wang Yong-cheng. Journal of Zhejiang University SCIENCE, 2005. – Vol. 45. – Issue. 1. P. 49-55. ISSN: 1009-3095.
William B. Canvar, John M. Trenkle. Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval, Las Vegas, US, 1994. P. 161-175.
Companies House [Электронный ресурс] // Free Company Data Product – Режим доступа: http://download.companieshouse.gov.uk/en_output.html, свободный (дата обращения 01.07.2019).
LEI Data [Электронный ресурс] // Download the Concatenated Files – Режим доступа:
https://www.gleif.org/en/lei-data/gleif-concatenated-file/download-the-concatenated-file/, свободный (дата обращения 01.07.2019).
Apache Spark [Электронный ресурс] // Unified analytics engine for large-scale data processing. – Режим доступа: https://spark.apache.org/, свободный (дата обращения 01.07.2019).