Оценка качества классификации текстовых материалов с использованием алгоритма машинного обучения «случайный лес»
Аннотация
Представлены результаты оценки качества классификации текстовых материалов алгоритмом машинного обучения «случайный лес», реализованным в библиотеке scikit-learn. Приведено описание применяемых функций из данной библиотеки, а также параметров, которые влияют на качества классификации. Описаны основные этапы работ классификации текстовых материалов: формирование наборов материалов для обучения и контроля (обеспечение репрезентативности выборки, обработка текста, определение групп для обучения и контроля); обучение модели классификатора; тестирование модели классификатора; оценка качества полученных результатов. Осуществлена оценка качества с использованием таких характеристик, как точность (precision), полнота (recall) и F-меры работы классификатора для различных вариантов подготовки данных: сбалансированная и несбалансированная обучающие группы материалов, при этом для последней был предусмотрен вариант с преобразованием текста в набор токенов. По результатам работы определены основные направления для повышения качества классификации текстовых материалов алгоритмом машинного обучения «случайный лес».
DOI 10.14258/izvasu(2017)4-13
Скачивания
Metrics
Литература
Карташев Е.А., Царегородцев А.Л. Автоматизированная информационная система поиска и анализа информации в сети Интернет // Фундаментальные исследования. — 2016. — № 10, ч. 2.
Епрев А.С. Автоматическая классификация текстовых документов // Математические структуры и моделирование. — № 21. — 2010.
Sebastiani F. Machine learning in automated text categorization // ACM Computing Surveys. — 34(1) . — 2002.
Кафтанников И.Л., Парасич А.В. Об особенности применения деревьев решений в задачах классификации // Вестник ЮУрГУ. Серия: Компьютерные технологии, управление, радиоэлектроника. — 2015. — Т. 15, No 3 [Электронный ресурс]. — URL: https://vestnik.susu.ru/ctcr/article/viewFile/4205/3780.
Вьюгин В.В. Математические основы машинного обучения и прогнозирования. — М., 2014.
Маннинг Кристофер Д., Рагхаван Прабхакар, Шютце Хайнрих. Введение в информационный поиск. — М., 2014.
Терновой О.С., Шатохин А.С. Использование байесовского классификатора для получения обучающих выборок, позволяющих определять вредоносный трафик на коротких интервалах // Известия Алтайского гос. ун-та. — 2013. — №1/1 (77).
Терновой О.С. Методика и средства раннего выявления и противодействия угрозам нарушения информационной безопасности в результате ddos атак // Известия Алтайского гос. ун-та. — 2013. — №1/2(77). DOI: 10.14258/ izvasu(2013)1.2-24.
Андреев A.M., Березкин Д.В., Морозов B.B., Симаков K.B. Автоматическая классификация текстовых документов с использованием нейросетевых алгоритмов и семантического анализа // Мир ПК. — 2007. — № 9.
Круглов В.В., Борисов В.В. Искусственные нейронные сети. Теория и практика. — М., 2001.
Попков М.И. Автоматическая система классификации текстов для базы знаний предприятия // International Journal of Open Information Technologies : научный журнал. — 2014. Т. 2, No 7 [Электронный ресурс]. — URL:http: // cyberleninka. ru/article/n/avtomaticheskaya-sistema-klassifikatsii-tekstov-dlya-bazy-znaniy-predpriyatiya.
Random Forest Classifier [Electronic resourse]. — URL: http://scikit-learn.org/stable/modules/ generated/sklearn. ensemble.RandomForestClassifier.html#sklearn.ensemble. RandomForestClassifier.
Половикова О.Н. Анализ способов формализаций документов для выполнения семантического поиска // Известия Алтайского гос. ун-та. — 2012. — №1 (73).
Copyright (c) 2017 И.С. Веретенников, Е.А. Карташев, А.Л. Царегородцев
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.