Применение методов машинного обучения в задаче секвенирования генома

Основное содержимое статьи

В. Д. Смагин
А. Н. Русакович

Аннотация

Статья посвящена методам машинного обучения, применяемым для улучшения анализа результатов секвенирования. Предметом данного исследования является анализ существующих подходов к обработке молекулярно-биологических (МБ) данных, полученных с помощью различных методик секвенирования, с использованием машинного обучения (МО). Цель работы – обобщение актуальных способов получения «полезной» информации из «сырых» МБ данных. Секвенирование применяется
для установления последовательности нуклеотидов в ДНК и является одной из наиболее важных процедур в рамках геномных исследований. В процессе проведения NGS (Next-Generation Sequencing) требуется обрабатывать колоссальные объемы данных, зачастую имеющих дефекты разного рода. В связи с существованием различных вариаций методов секвенирования и наличием в них трех и
более этапов, спектр проблем решаемых с помощью МО в этой области также чрезвычайно широк. В работе представлен краткий обзор некоторых решений, основанных на машинном обучении, применяемых для повышения качества анализа и преобразования результатов отдельных этапов секвенирования. Описаны ключевые группы биоинформатических задач в рамках секвенирования, приведены примеры реализованных алгоритмов с использованием МО. Кроме того, разработаны различные подходы к решению одной и той же задачи, при этом имеющие свои преимущества и недостатки.

Скачивания

Данные скачивания пока недоступны.

Информация о статье

Как цитировать
[1]
Смагин, В.Д. и Русакович, А.Н. 2021. Применение методов машинного обучения в задаче секвенирования генома. Системный анализ в науке и образовании. 1 (сен. 2021), 23–32.
Раздел
Статьи

Библиографические ссылки

Pereira R., Oliveira J., Sousa M. Bioinformatics and Computational Tools for Next-Generation Sequencing Analysis in Clinical Genetics // Journal of Clinical Medicine. 2020. Vol. 9. N. 1. Article number: 132. URL : https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7019349/.

Гуревич А. А. Вычислительные методы для анализа подверженных ошибкам метабологеномных данных : дис. канд. физ.-мат. наук : 03.01.09. Санкт-Петербург, 2018. 224 с. URL : https://disser.spbu.ru/files/2018/disser_gyrevich_aa.pdf.

Padovani de Souza K., Setubal J. C., Ponce de Leon F de Carvalho A. C. , Oliveira G., Chateau A., Alves R.Machine learning meets genome assembly // Briefings in Bioinformatics. 2019. Vol. 20. N. 6. P. 2116–2129. UR L: https://pubmed.ncbi.nlm.nih.gov/30137230/.

Krachunov M., Nisheva M., Vassilev D. Machine learning models in error and variant detection in highvariation high-throughput sequencing datasets. // Procedia Computer Science. 2017. Vol. 108. P. 1145–1154.

Choi J.-H., Kim S., Tang H., et al. A machine-learning approach to combined evidence validation of genome assemblies. // Bioinformatics. 2008. Vol. 4. N. 6. P. 744–750.

Kuhring M., Dabrowski P. W., Piro V. C., et al. SuRankCo: supervised ranking of contigs in de novo assemblies. // BMC Bioinformatics. 2015. Vol. 16. N. 1. P. 240.

URL : https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-015-0644-7.

Palmer L. E., Dejori M., Bolanos R., et al. Improving de novo sequence assembly using machine learning and comparative genomics for overlap correction. // BMC Bioinformatics. 2010. Vol. 11. N. 1. P. 33. URL : https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-11-33.

Ji P., Zhang Y., Wang J., et al. MetaSort untangles metagenome assembly by reducing microbial community complexity. // Nature Communications. 2017. Vol. 8. P. 14306. URL : https://www.nature.com/articles/ncomms14306.

DePristo M. Poplin R.; Google Brain Team. DeepVariant : Highly Accurate Genomes With Deep Neural Networks // Google AI Blog. 2017 December 4.

URL : https://ai.googleblog.com/2017/12/deepvariant-highly-accurate-genomes.html.

Chin J. Simple Convolutional Neural Network for Genomic Variant Calling with TensorFlow // Medium: an online publishing platform / Medium Corporation. 2017 Jul 17. URL : https://towardsdatascience.com/simple-convolution-neural-network-for-genomic-variant-callingwith-tensorflow-c085dbc2026f.

Dias R., Torkamani A. Artificial intelligence in clinical and genomic diagnostics // Genome Medicine. 2019. Vol. 11. |Article number: 70. 12 p.

URL : https://genomemedicine.biomedcentral.com/articles/10.1186/s13073-019-0689-8.

Jaganathan K., Kyriazopoulou Panagiotopoulou S., McRae J. F., et al. Predicting Splicing from Primary Sequence with Deep Learning // Cell. 2019. Vol. 176. N. 3. P. 535–548. URL : https://pubmed.ncbi.nlm.nih.gov/30661751/.

Quang D., Chen Y., Xie X. DANN : a deep learning approach for annotating the pathogenicity of genetic variants // Bioinformatics. 2015. Vol. 31. N. 5. P. 761–763.

URL : https://pubmed.ncbi.nlm.nih.gov/25338716/.