Применение методов машинного обучения в задаче секвенирования генома
Основное содержимое статьи
Аннотация
Статья посвящена методам машинного обучения, применяемым для улучшения анализа результатов секвенирования. Предметом данного исследования является анализ существующих подходов к обработке молекулярно-биологических (МБ) данных, полученных с помощью различных методик секвенирования, с использованием машинного обучения (МО). Цель работы – обобщение актуальных способов получения «полезной» информации из «сырых» МБ данных. Секвенирование применяется
для установления последовательности нуклеотидов в ДНК и является одной из наиболее важных процедур в рамках геномных исследований. В процессе проведения NGS (Next-Generation Sequencing) требуется обрабатывать колоссальные объемы данных, зачастую имеющих дефекты разного рода. В связи с существованием различных вариаций методов секвенирования и наличием в них трех и
более этапов, спектр проблем решаемых с помощью МО в этой области также чрезвычайно широк. В работе представлен краткий обзор некоторых решений, основанных на машинном обучении, применяемых для повышения качества анализа и преобразования результатов отдельных этапов секвенирования. Описаны ключевые группы биоинформатических задач в рамках секвенирования, приведены примеры реализованных алгоритмов с использованием МО. Кроме того, разработаны различные подходы к решению одной и той же задачи, при этом имеющие свои преимущества и недостатки.
Скачивания
Информация о статье
Библиографические ссылки
Pereira R., Oliveira J., Sousa M. Bioinformatics and Computational Tools for Next-Generation Sequencing Analysis in Clinical Genetics // Journal of Clinical Medicine. 2020. Vol. 9. N. 1. Article number: 132. URL : https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7019349/.
Гуревич А. А. Вычислительные методы для анализа подверженных ошибкам метабологеномных данных : дис. канд. физ.-мат. наук : 03.01.09. Санкт-Петербург, 2018. 224 с. URL : https://disser.spbu.ru/files/2018/disser_gyrevich_aa.pdf.
Padovani de Souza K., Setubal J. C., Ponce de Leon F de Carvalho A. C. , Oliveira G., Chateau A., Alves R.Machine learning meets genome assembly // Briefings in Bioinformatics. 2019. Vol. 20. N. 6. P. 2116–2129. UR L: https://pubmed.ncbi.nlm.nih.gov/30137230/.
Krachunov M., Nisheva M., Vassilev D. Machine learning models in error and variant detection in highvariation high-throughput sequencing datasets. // Procedia Computer Science. 2017. Vol. 108. P. 1145–1154.
Choi J.-H., Kim S., Tang H., et al. A machine-learning approach to combined evidence validation of genome assemblies. // Bioinformatics. 2008. Vol. 4. N. 6. P. 744–750.
Kuhring M., Dabrowski P. W., Piro V. C., et al. SuRankCo: supervised ranking of contigs in de novo assemblies. // BMC Bioinformatics. 2015. Vol. 16. N. 1. P. 240.
URL : https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-015-0644-7.
Palmer L. E., Dejori M., Bolanos R., et al. Improving de novo sequence assembly using machine learning and comparative genomics for overlap correction. // BMC Bioinformatics. 2010. Vol. 11. N. 1. P. 33. URL : https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-11-33.
Ji P., Zhang Y., Wang J., et al. MetaSort untangles metagenome assembly by reducing microbial community complexity. // Nature Communications. 2017. Vol. 8. P. 14306. URL : https://www.nature.com/articles/ncomms14306.
DePristo M. Poplin R.; Google Brain Team. DeepVariant : Highly Accurate Genomes With Deep Neural Networks // Google AI Blog. 2017 December 4.
URL : https://ai.googleblog.com/2017/12/deepvariant-highly-accurate-genomes.html.
Chin J. Simple Convolutional Neural Network for Genomic Variant Calling with TensorFlow // Medium: an online publishing platform / Medium Corporation. 2017 Jul 17. URL : https://towardsdatascience.com/simple-convolution-neural-network-for-genomic-variant-callingwith-tensorflow-c085dbc2026f.
Dias R., Torkamani A. Artificial intelligence in clinical and genomic diagnostics // Genome Medicine. 2019. Vol. 11. |Article number: 70. 12 p.
URL : https://genomemedicine.biomedcentral.com/articles/10.1186/s13073-019-0689-8.
Jaganathan K., Kyriazopoulou Panagiotopoulou S., McRae J. F., et al. Predicting Splicing from Primary Sequence with Deep Learning // Cell. 2019. Vol. 176. N. 3. P. 535–548. URL : https://pubmed.ncbi.nlm.nih.gov/30661751/.
Quang D., Chen Y., Xie X. DANN : a deep learning approach for annotating the pathogenicity of genetic variants // Bioinformatics. 2015. Vol. 31. N. 5. P. 761–763.