Автоматическая классификация генетических мутаций на основе методов машинного обучения

УДК 519.687:004.912

  • Ольга Николаевна Половикова Алтайский государственный университет, Барнаул, Россия Email: ponOlgap@gmail.com
  • Анастасия Станиславовна Маничева Алтайский государственный университет, Барнаул, Россия Email: manichevaas@mc.asu.ru
  • Вячеслав Вячеславович Ширяев ООО «ИТ Сфера», Барнаул, Россия Email: asmuddi628@gmail.com
Ключевые слова: генетические мутации, методы машинного обучения, классификация, кодирование текста, токенизация, векторизация, метрики качества обучения, логарифмическая функция потерь, подбор гиперпараметров модели

Аннотация

В данной статье описывается проблема определения вида генетической мутации раковой опухоли после секвенирования ее генома. Проблематика решения относится к задачам многоклассовой классификации. В работе предложен подход определения классов мутаций на основе их текстового описания с помощью методов машинного обучения, относящихся к группе обучения с учителем. Исследование проводилось на примере набора данных по онкологическим заболеваниям на основе анализа мутаций генома в клетках опухоли. Набор данных включает вид гена, его мутацию, текстовое описание генной мутации и класс мутации. Число классов равно девяти. В соответствии со спецификой исходных данных проведено обоснование выбора методов предобработки и векторизации текста, которые необходимо применить перед использованием методов машинного обучения. Построены классификаторы текстовых данных на основе моделей: k-ближайших соседей, деревьев решений, байесовского классификатора, логистической регрессии. По результатам моделирования получены оценки метрик качества классификации. Показано, что для исходных данных наилучшей моделью классификации является логистическая регрессия, показавшая меньшее значение функции потерь.

Скачивания

Данные скачивания пока недоступны.

Metrics

Загрузка метрик ...

Биографии авторов

Ольга Николаевна Половикова, Алтайский государственный университет, Барнаул, Россия

кандидат физико-математических наук, доцент, доцент кафедры информатики

Анастасия Станиславовна Маничева, Алтайский государственный университет, Барнаул, Россия

кандидат технических наук, доцент, доцент кафедры теоретической кибернетики и прикладной математики

Вячеслав Вячеславович Ширяев, ООО «ИТ Сфера», Барнаул, Россия

программист отдела разработки систем визуализации данных

Литература

Код жизни: прочесть не значит понять // Kaggle. URL: https://biomolecula.ru/articles/kod-zhizni-prochest-ne-znachit-poniathttp://archive.expert.ru/expert/ (дата обращения: 10.11.2023).

Третья фаза ENCODE обнаружила тысячи новых взаимодействий внутри генома // PRC NEWS. URL: https:// pcr.news/novosti/tretya-faza-encode-obnaruzhila-tysyachi-novykh-vzaimodeystviy-vnutri-genoma/ (дата обращения: 10.11.2023).

The Encyclopedia of DNA Elements (ENCODE) // National Human Genome Research Institute. URL: https://www. genome.gov/Funded-Pro-grams-Projects/ENCODE-Pro-ject-ENCyclopedia-Of-DNA-Elements (дата обращения: 10.11.2023).

The ENCODE Project Consortium et al. Expanded Encyclopaedias of DNA Elements in the Human and Mouse Genomes // Nature. 2020. № 583. P. 699-710. DOI: 10.1038/ s41586-020-2493-4

Vnencak-Jones C., Berger M., Pao W. Types of Molecular Tumor Testing // My Cancer Genome. URL: https://www.my-cancergenome.org/content/molecular-medicine/types-of-mo-lecular-tumor-testing/ (дата обращения: 10.11.2023).

Гаджиев Я., Шалбузова К. Применение методов машинного обучения в прогнозировании и раннем обнаружении рака // Sciences of Europe. 2022. № 108. С. 46-50.

Гусев А.В., Гаврилов Д.В., Корсаков И.Н. и др. Перспективы использования методов машинного обучения для предсказания сердечнососудистых заболеваний // Врач и информационные технологии. 2019. № 3. С. 41-47.

Гусев А.В., Новицкий РЭ., Ившин А.А., Алексеев А.А. Машинное обучение на лабораторных данных для прогнозирования заболеваний // Фармакоэкономика. Современная фармакоэкономика и фармакоэпидемиология. 2021. № 4. С. 581-592. DOI: 10.17749/2070-4909/farmakoekonomi-ka.2021.115

Раскина К.В., Мартынова Е.Ю., Перфильев А.В. и др. От персонализированной к точной медицине // Рациональная фармакотерапия в кардиологии. 2017. № 1. С. 69-79. DOI: 10.20996/1819-6446-2017-13-1-69-79

Emmert-Streib F. Personalized Medicine: Has it Started yet? A Reconstruction of the Early History // Front Genet. 2013. Vol. 3. № 313. DOI: 10.3389/fgene.2012.00313

3 главных причины для геномного секвенирования рака // Блог сайта addon. URL: https://addon.life/ru/2021/08/02/ genomic-sequencing-cancer/ (дата обращения: 10.11.2023).

Personalized Medicine: Redefining Cancer Treatment // Kaggle. URL: https://www.kaggle.com/competitions/msk-redefining-cancer-treatment/overview (дата обращения: 10.11.2023).

Обработка естественного языка // Машинное обучение. URL: https://www.dmitrymakarov.ru/intro/topic-iden-tification-19/ (дата обращения: 10.11.2023).

Самигулин Т.Р, Джурабаев А.Э. Анализ тональности текста методами машинного обучения // Научный результат. Информационные технологии. 2021. № 1. С. 55-62. DOI: 10.18413/2518-1092-2021-6-1-0-7

Опубликован
2024-04-05
Как цитировать
Половикова О. Н., Маничева А. С., Ширяев В. В. Автоматическая классификация генетических мутаций на основе методов машинного обучения // Известия Алтайского государственного университета, 2024, № 1(135). С. 126-131 DOI: 10.14258/izvasu(2024)1-18. URL: http://izvestiya.asu.ru/article/view/%282024%291-18.