Применение методов машинного обучения в задаче секвенирования генома

В. Д. Смагин; А. Н. Русакович

PDF

Опубликован: сен 24, 2021

Ключевые слова:

секвенирование, NGS, машинное обучение, сборка генома sequencing, NGS, machine learning, genome assembly

В. Д. Смагин

ОАО ОКБ «Аэрокосмические системы»; Государственный университет «Дубна»

А. Н. Русакович

Группа молекулярной и радиационной генетики ЛЯП ОИЯИ

Аннотация

Статья посвящена методам машинного обучения, применяемым для улучшения анализа результатов секвенирования. Предметом данного исследования является анализ существующих подходов к обработке молекулярно-биологических (МБ) данных, полученных с помощью различных методик секвенирования, с использованием машинного обучения (МО). Цель работы – обобщение актуальных способов получения «полезной» информации из «сырых» МБ данных. Секвенирование применяется
для установления последовательности нуклеотидов в ДНК и является одной из наиболее важных процедур в рамках геномных исследований. В процессе проведения NGS (Next-Generation Sequencing) требуется обрабатывать колоссальные объемы данных, зачастую имеющих дефекты разного рода. В связи с существованием различных вариаций методов секвенирования и наличием в них трех и
более этапов, спектр проблем решаемых с помощью МО в этой области также чрезвычайно широк. В работе представлен краткий обзор некоторых решений, основанных на машинном обучении, применяемых для повышения качества анализа и преобразования результатов отдельных этапов секвенирования. Описаны ключевые группы биоинформатических задач в рамках секвенирования, приведены примеры реализованных алгоритмов с использованием МО. Кроме того, разработаны различные подходы к решению одной и той же задачи, при этом имеющие свои преимущества и недостатки.

Скачивания

Данные скачивания пока недоступны.

Как цитировать

[1]

Смагин, В.Д. и Русакович, А.Н. 2021. Применение методов машинного обучения в задаче секвенирования генома. Системный анализ в науке и образовании. 1 (сен. 2021), 23–32.

Выпуск

№ 1 (2021): №1 (2021)

Раздел

Статьи

Библиографические ссылки

Pereira R., Oliveira J., Sousa M. Bioinformatics and Computational Tools for Next-Generation Sequencing Analysis in Clinical Genetics // Journal of Clinical Medicine. 2020. Vol. 9. N. 1. Article number: 132. URL : https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7019349/.

Гуревич А. А. Вычислительные методы для анализа подверженных ошибкам метабологеномных данных : дис. канд. физ.-мат. наук : 03.01.09. Санкт-Петербург, 2018. 224 с. URL : https://disser.spbu.ru/files/2018/disser_gyrevich_aa.pdf.

Padovani de Souza K., Setubal J. C., Ponce de Leon F de Carvalho A. C. , Oliveira G., Chateau A., Alves R.Machine learning meets genome assembly // Briefings in Bioinformatics. 2019. Vol. 20. N. 6. P. 2116–2129. UR L: https://pubmed.ncbi.nlm.nih.gov/30137230/.

Krachunov M., Nisheva M., Vassilev D. Machine learning models in error and variant detection in highvariation high-throughput sequencing datasets. // Procedia Computer Science. 2017. Vol. 108. P. 1145–1154.

Choi J.-H., Kim S., Tang H., et al. A machine-learning approach to combined evidence validation of genome assemblies. // Bioinformatics. 2008. Vol. 4. N. 6. P. 744–750.

Kuhring M., Dabrowski P. W., Piro V. C., et al. SuRankCo: supervised ranking of contigs in de novo assemblies. // BMC Bioinformatics. 2015. Vol. 16. N. 1. P. 240.

URL : https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-015-0644-7.

Palmer L. E., Dejori M., Bolanos R., et al. Improving de novo sequence assembly using machine learning and comparative genomics for overlap correction. // BMC Bioinformatics. 2010. Vol. 11. N. 1. P. 33. URL : https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-11-33.

Ji P., Zhang Y., Wang J., et al. MetaSort untangles metagenome assembly by reducing microbial community complexity. // Nature Communications. 2017. Vol. 8. P. 14306. URL : https://www.nature.com/articles/ncomms14306.

DePristo M. Poplin R.; Google Brain Team. DeepVariant : Highly Accurate Genomes With Deep Neural Networks // Google AI Blog. 2017 December 4.

URL : https://ai.googleblog.com/2017/12/deepvariant-highly-accurate-genomes.html.

Chin J. Simple Convolutional Neural Network for Genomic Variant Calling with TensorFlow // Medium: an online publishing platform / Medium Corporation. 2017 Jul 17. URL : https://towardsdatascience.com/simple-convolution-neural-network-for-genomic-variant-callingwith-tensorflow-c085dbc2026f.

Dias R., Torkamani A. Artificial intelligence in clinical and genomic diagnostics // Genome Medicine. 2019. Vol. 11. |Article number: 70. 12 p.

URL : https://genomemedicine.biomedcentral.com/articles/10.1186/s13073-019-0689-8.

Jaganathan K., Kyriazopoulou Panagiotopoulou S., McRae J. F., et al. Predicting Splicing from Primary Sequence with Deep Learning // Cell. 2019. Vol. 176. N. 3. P. 535–548. URL : https://pubmed.ncbi.nlm.nih.gov/30661751/.

Quang D., Chen Y., Xie X. DANN : a deep learning approach for annotating the pathogenicity of genetic variants // Bioinformatics. 2015. Vol. 31. N. 5. P. 761–763.

URL : https://pubmed.ncbi.nlm.nih.gov/25338716/.

Боковая панель статьи

Основное содержимое статьи

Аннотация

Скачивания

Информация о статье

Библиографические ссылки