Evaluation of Text Materials Classification Quality Using «Random Forests» Machine Learning Algorithm

  • И.С. Веретенников Ugra Research Institute of Information Technologies (Khanty-Mansiysk, Russia) Email: VeretennikovIS@uriit.ru
  • Е.А. Карташев Ugra Research Institute of Information Technologies (Khanty-Mansiysk, Russia) Email: KartashevEA@uriit.ru
  • А.Л. Царегородцев Ugra Research Institute of Information Technologies (Khanty-Mansiysk, Russia) Email: TsaregorodtsevAL@uriit.ru
Keywords: scikit-learn library, machine learning, classification of text documents, random forests classifier, decision trees

Abstract

The results of quality evaluation of text materials classification by the "random forests" machine learning algorithm implemented in the “scikit-learn” library are presented. Functions used in the “scikit-learn” library, as well as the parameters that affect classification quality, are described. The main stages of text materials classification are shown in the paper: the formation of sets of materials for training and control (ensuring sample representativeness, text processing, definition of groups for training and control); classifier model training; classifier model testing; quality evaluation of the obtained results. The quality evaluation is carried out using characteristics, such as precession, recall and F-measures of the classifier for various data preparation options: balanced and unbalanced training groups of materials, while the latter case is designed to convert the text into a set of tokens. Based on the results of the work, the main directions for improving quality of text materials classification by the "random forests" machine learning algorithm have been determined

DOI 10.14258/izvasu(2017)4-13

Downloads

Download data is not yet available.

Metrics

Metrics Loading ...

Author Biographies

И.С. Веретенников, Ugra Research Institute of Information Technologies (Khanty-Mansiysk, Russia)
программист Центра обработки информации
Е.А. Карташев, Ugra Research Institute of Information Technologies (Khanty-Mansiysk, Russia)
руководитель Центра обработки информации
А.Л. Царегородцев, Ugra Research Institute of Information Technologies (Khanty-Mansiysk, Russia)
кандидат технических наук, доцент, заместитель директора по науке

References

Карташев Е.А., Царегородцев А.Л. Автоматизированная информационная система поиска и анализа информации в сети Интернет // Фундаментальные исследования. — 2016. — № 10, ч. 2.

Епрев А.С. Автоматическая классификация текстовых документов // Математические структуры и моделирование. — № 21. — 2010.

Sebastiani F. Machine learning in automated text categorization // ACM Computing Surveys. — 34(1) . — 2002.

Кафтанников И.Л., Парасич А.В. Об особенности применения деревьев решений в задачах классификации // Вестник ЮУрГУ. Серия: Компьютерные технологии, управление, радиоэлектроника. — 2015. — Т. 15, No 3 [Электронный ресурс]. — URL: https://vestnik.susu.ru/ctcr/article/viewFile/4205/3780.

Вьюгин В.В. Математические основы машинного обучения и прогнозирования. — М., 2014.

Маннинг Кристофер Д., Рагхаван Прабхакар, Шютце Хайнрих. Введение в информационный поиск. — М., 2014.

Терновой О.С., Шатохин А.С. Использование байесовского классификатора для получения обучающих выборок, позволяющих определять вредоносный трафик на коротких интервалах // Известия Алтайского гос. ун-та. — 2013. — №1/1 (77).

Терновой О.С. Методика и средства раннего выявления и противодействия угрозам нарушения информационной безопасности в результате ddos атак // Известия Алтайского гос. ун-та. — 2013. — №1/2(77). DOI: 10.14258/ izvasu(2013)1.2-24.

Андреев A.M., Березкин Д.В., Морозов B.B., Симаков K.B. Автоматическая классификация текстовых документов с использованием нейросетевых алгоритмов и семантического анализа // Мир ПК. — 2007. — № 9.

Круглов В.В., Борисов В.В. Искусственные нейронные сети. Теория и практика. — М., 2001.

Попков М.И. Автоматическая система классификации текстов для базы знаний предприятия // International Journal of Open Information Technologies : научный журнал. — 2014. Т. 2, No 7 [Электронный ресурс]. — URL:http: // cyberleninka. ru/article/n/avtomaticheskaya-sistema-klassifikatsii-tekstov-dlya-bazy-znaniy-predpriyatiya.

Random Forest Classifier [Electronic resourse]. — URL: http://scikit-learn.org/stable/modules/ generated/sklearn. ensemble.RandomForestClassifier.html#sklearn.ensemble. RandomForestClassifier.

Половикова О.Н. Анализ способов формализаций документов для выполнения семантического поиска // Известия Алтайского гос. ун-та. — 2012. — №1 (73).

How to Cite
Веретенников И., Карташев Е., Царегородцев А. Evaluation of Text Materials Classification Quality Using «Random Forests» Machine Learning Algorithm // Izvestiya of Altai State University, 1, № 4(96) DOI: 10.14258/izvasu(2017)4-13. URL: http://izvestiya.asu.ru/article/view/%282017%294-13.