Support Vector Machines Analysis of Web Pages Binary Classification Quality

  • С.В. Волошин Ugra Research Institute of Information Technologies (Khanty-Mansiysk, Russia)
  • А.Л. Царегородцев Ugra Research Institute of Information Technologies (Khanty-Mansiysk, Russia)
  • Е.А. Карташев Ugra Research Institute of Information Technologies (Khanty-Mansiysk, Russia)
  • В.В. Славский Ugra State University (Khanty-Mansiysk, Russia)
Keywords: data analysis, machine learning, support vector machine, text classification, binary classification problem

Abstract

This paper presents the analysis of classification quality of web-pages binary classification by the support vector machines method. This classification is required to reveal the web pages containing text information, which distribution is forbidden in Russian Federation. Results are shown for three document collections: “drug dealing”, “extremism” and “terrorism”. Collections of documents are created as a result of specialists’ work with one of the Internet information search and analysis information systems. For each collection, we describe class proportions of testing and training samples, distribution by the type of Internet resources, and several problems that make the classification itself or classifier training difficult. Formation of document’s vector is also described. Next, we show testing results for different kernel functions and analyze classification mistakes. We use precision, recall and F1 score as quality measures. Machine learning library “scikit-learn” is used to implement support vector machines. Finally, we make assumptions about classification quality.

DOI 10.14258/izvasu(2017)4-14

Downloads

Download data is not yet available.

Author Biographies

С.В. Волошин, Ugra Research Institute of Information Technologies (Khanty-Mansiysk, Russia)
программист Центра обработки информации
А.Л. Царегородцев, Ugra Research Institute of Information Technologies (Khanty-Mansiysk, Russia)
кандидат технических наук, доцент, заместитель директора по науке
Е.А. Карташев, Ugra Research Institute of Information Technologies (Khanty-Mansiysk, Russia)
руководитель Центра обработки информации
В.В. Славский, Ugra State University (Khanty-Mansiysk, Russia)
доктор физико-математических наук, профессор кафедры высшей математики

References

1. Карташев Е.А., Царегородцев А.Л. Автоматизированная система поиска и анализа информации в сети Интернет // Фундаментальные исследования. — 2016. — № 10, ч. 2.

2. Вьюгин В.В. Математические основы машинного обучения и прогнозирования [Электронный ресурс]. — URL: http://elanbook.com/book/56397.

3. Fradkin D., Muchnik I. Support Vector Machines for Classification// Abello J. Carmode G. (Eds); Discrete Methods in Epidemiology, DIMACS Series in Discrete Mathematics and Theoretical Computer Science, volume 70, 2006.

4. Cristianini N., Shawe-Taylor J. An Introduction to Support Vector Machines and other kernel-based learning methods. — Cambridge, 2000.

5. Joachims T. Text categorization with support vector machines: learning with many relevant features // Proceedings of ECML-98, 10th European Conference on Machine Learning, Chemnitz, 1998.

6. Xu H., Caramanis C., Mannor Sh. Robustness and Regularization of Support Vector Machines // The Journal of Machine Learning Research, 10, 12/1/2009.

7. Support vector machines: scikit-learn [Electronic resourse]. — URL: http://scikit-learn.org/stable/modules/svm. html (дата обращения: 01.03.17).

8. Unbalanced problems of support vector machines: scikit-learn [Electronic resourse]. URL: http://scikit-learn.org/ stable/modules/svm.html#unbalanced-problems (дата обращения: 01.03.17).

9. Половикова О.Н. Анализ способов формализаций документов для выполнения семантического поиска // Известия Алтайского гос. ун-та. — 2012. — №1 (73).

10. Терновой О.С. Методика и средства раннего выявления и противодействия угрозам нарушения информационной безопасности в результате ddos атак // Известия Алтайского гос. ун-та. — 2013. — №1/2 (77). D0I:10.14258/ izvasu(2013)1.2-24.

11. Терновой О.С., Шатохин А.С. Использование байесовского классификатора для получения обучающих выборок, позволяющих определять вредоносный трафик на коротких интервалах // Известия Алтайского гос. ун-та. — 2013. — №1/1 (77).

12. Ямшанов М.Л. Оптимизация выбора параметров SVM-классификатора с ядром RBF для задач классификации текстовых документов // Вестник ВятГГУ — 2006. — №15.

13. Маслов М.Ю., Пяллинг А.А., Трифонов С.И. Автоматическая классификация веб-сайтов // Электронные библиотеки: перспективные методы и технологии, электронные коллекции : труды Десятой Всерос. науч. конф. «RCDL’2008». — Дубна, 2008.
How to Cite
Волошин, С., Царегородцев, А., Карташев, Е., & Славский, В. (1). Support Vector Machines Analysis of Web Pages Binary Classification Quality. Izvestiya of Altai State University, (4(96). https://doi.org/https://doi.org/10.14258/izvasu(2017)4-14