Связывание текстовых записей в задаче интеграции данных в условиях больших данных

В.В. Папоян; В.В. Кореньков; И.С. Кадочников

PDF

Опубликован: сен 16, 2021

Ключевые слова:

большие данные, связывание текстовых записей, векторное представление слов, локально-чувствительное хеширование, apache spark apache spark, big data, record linkage, vector space model, locality-sensitive hashing

В.В. Папоян

ГБОУ ВО МО «Университет «Дубна», 141980, Московская обл., г. Дубна, ул. Университетская, 19

В.В. Кореньков

Объединенный институт ядерных исследований, 141980, Московская обл., г. Дубна, ул. Жолио-Кюри, 6

И.С. Кадочников

Российский экономический университет им. Г.В. Плеханова, 117997, г. Москва, Стремянный пер., 36

Аннотация

При интеграции данных из нескольких источников появляется проблема выявления идентичных записей, то есть относящихся к одному и тому же объекту реального окружения. Одно из решений вышеуказанной проблемы осуществляется с помощью вероятностного подхода связывания текстовых записей. В рамках настоящей статьи определено и апробировано, что для эффективной реализации вышеуказанного решения необходимо применить локально-чувствительное хеширование и представить целевой атрибут в векторной модели на этапе блокирования данных. Реализация выявленного подхода была протестирована на двух реестрах компаний Companies House и GLEIF в платформе обработки больших данных Apache Spark.

Скачивания

Данные скачивания пока недоступны.

Как цитировать

[1]

Папоян , В., Кореньков, В. и Кадочников, И. 2021. Связывание текстовых записей в задаче интеграции данных в условиях больших данных. Системный анализ в науке и образовании. 3 (сен. 2021), 65–70.

Выпуск

№ 3 (2019): №3 (2019)

Раздел

Статьи

Библиографические ссылки

Sayers A., Ben-Shlomo Y., Blom A. W., Steele F. Probabilistic record linkage. International Journal of Epidemiology, 2016. – Vol. 6. P. 954-964.

Jure Leskovec, Anand Rajaraman, Jeff Ullman. Mining of Massive Datasets.: Cambridge University Press, 2014. – Глава. 3.4.

ZHANG Yun-tao, GONG Ling, Wang Yong-cheng. Journal of Zhejiang University SCIENCE, 2005. – Vol. 45. – Issue. 1. P. 49-55. ISSN: 1009-3095.

William B. Canvar, John M. Trenkle. Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval, Las Vegas, US, 1994. P. 161-175.

Companies House [Электронный ресурс] // Free Company Data Product – Режим доступа: http://download.companieshouse.gov.uk/en_output.html, свободный (дата обращения 01.07.2019).

LEI Data [Электронный ресурс] // Download the Concatenated Files – Режим доступа:

https://www.gleif.org/en/lei-data/gleif-concatenated-file/download-the-concatenated-file/, свободный (дата обращения 01.07.2019).

Apache Spark [Электронный ресурс] // Unified analytics engine for large-scale data processing. – Режим доступа: https://spark.apache.org/, свободный (дата обращения 01.07.2019).

Боковая панель статьи

Основное содержимое статьи

Аннотация

Скачивания

Информация о статье

Библиографические ссылки

Наиболее читаемые статьи этого автора (авторов)