Оценка качества классификации текстовых материалов с использованием алгоритма машинного обучения «случайный лес»

И.С. Веретенников; Е.А. Карташев; А.Л. Царегородцев

doi:10.14258/izvasu(2017)4-13

И.С. Веретенников Югорский научно-исследовательский институт информационных технологий (Ханты-Мансийск, Россия) Email: VeretennikovIS@uriit.ru
Е.А. Карташев Югорский научно-исследовательский институт информационных технологий (Ханты-Мансийск, Россия) Email: KartashevEA@uriit.ru
А.Л. Царегородцев Югорский научно-исследовательский институт информационных технологий (Ханты-Мансийск, Россия) Email: TsaregorodtsevAL@uriit.ru

https://doi.org/10.14258/izvasu(2017)4-13

Ключевые слова: библиотека scikit-learn, машинное обучение, классификация текстовых документов, алгоритм «случайный лес», дерево принятия решений

Аннотация

Представлены результаты оценки качества классификации текстовых материалов алгоритмом машинного обучения «случайный лес», реализованным в библиотеке scikit-learn. Приведено описание применяемых функций из данной библиотеки, а также параметров, которые влияют на качества классификации. Описаны основные этапы работ классификации текстовых материалов: формирование наборов материалов для обучения и контроля (обеспечение репрезентативности выборки, обработка текста, определение групп для обучения и контроля); обучение модели классификатора; тестирование модели классификатора; оценка качества полученных результатов. Осуществлена оценка качества с использованием таких характеристик, как точность (precision), полнота (recall) и F-меры работы классификатора для различных вариантов подготовки данных: сбалансированная и несбалансированная обучающие группы материалов, при этом для последней был предусмотрен вариант с преобразованием текста в набор токенов. По результатам работы определены основные направления для повышения качества классификации текстовых материалов алгоритмом машинного обучения «случайный лес».

DOI 10.14258/izvasu(2017)4-13

Скачивания

Metrics

PDF views

542

|

Биографии авторов

И.С. Веретенников, Югорский научно-исследовательский институт информационных технологий (Ханты-Мансийск, Россия)

программист Центра обработки информации

Е.А. Карташев, Югорский научно-исследовательский институт информационных технологий (Ханты-Мансийск, Россия)

руководитель Центра обработки информации

А.Л. Царегородцев, Югорский научно-исследовательский институт информационных технологий (Ханты-Мансийск, Россия)

кандидат технических наук, доцент, заместитель директора по науке

Литература

Карташев Е.А., Царегородцев А.Л. Автоматизированная информационная система поиска и анализа информации в сети Интернет // Фундаментальные исследования. — 2016. — № 10, ч. 2.

Епрев А.С. Автоматическая классификация текстовых документов // Математические структуры и моделирование. — № 21. — 2010.

Sebastiani F. Machine learning in automated text categorization // ACM Computing Surveys. — 34(1) . — 2002.

Кафтанников И.Л., Парасич А.В. Об особенности применения деревьев решений в задачах классификации // Вестник ЮУрГУ. Серия: Компьютерные технологии, управление, радиоэлектроника. — 2015. — Т. 15, No 3 [Электронный ресурс]. — URL: https://vestnik.susu.ru/ctcr/article/viewFile/4205/3780.

Вьюгин В.В. Математические основы машинного обучения и прогнозирования. — М., 2014.

Маннинг Кристофер Д., Рагхаван Прабхакар, Шютце Хайнрих. Введение в информационный поиск. — М., 2014.

Терновой О.С., Шатохин А.С. Использование байесовского классификатора для получения обучающих выборок, позволяющих определять вредоносный трафик на коротких интервалах // Известия Алтайского гос. ун-та. — 2013. — №1/1 (77).

Терновой О.С. Методика и средства раннего выявления и противодействия угрозам нарушения информационной безопасности в результате ddos атак // Известия Алтайского гос. ун-та. — 2013. — №1/2(77). DOI: 10.14258/ izvasu(2013)1.2-24.

Андреев A.M., Березкин Д.В., Морозов B.B., Симаков K.B. Автоматическая классификация текстовых документов с использованием нейросетевых алгоритмов и семантического анализа // Мир ПК. — 2007. — № 9.

Круглов В.В., Борисов В.В. Искусственные нейронные сети. Теория и практика. — М., 2001.

Попков М.И. Автоматическая система классификации текстов для базы знаний предприятия // International Journal of Open Information Technologies : научный журнал. — 2014. Т. 2, No 7 [Электронный ресурс]. — URL:http: // cyberleninka. ru/article/n/avtomaticheskaya-sistema-klassifikatsii-tekstov-dlya-bazy-znaniy-predpriyatiya.

Random Forest Classifier [Electronic resourse]. — URL: http://scikit-learn.org/stable/modules/ generated/sklearn. ensemble.RandomForestClassifier.html#sklearn.ensemble. RandomForestClassifier.

Половикова О.Н. Анализ способов формализаций документов для выполнения семантического поиска // Известия Алтайского гос. ун-та. — 2012. — №1 (73).