Анализ качества бинарной классификации веб-страниц методом опорных векторов
Аннотация
Представлены результаты анализа качества бинарной классификации веб-страниц методом опорных векторов на наличие информации, распространение которой в Российской Федерации запрещено. Представлены данные для трех коллекций документов: «наркоторговля», «экстремизм», «терроризм». Коллекции документов сформированы по результатам работы специалистов с одной из существующих автоматизированных информационных систем поиска и анализа информации в интернете. Для каждой коллекции описываются соотношения классов, обучающей и тестовой выборок, распределение по типу интернет-ресурсов, а также часть проблем, затрудняющих построение классификатора или понижающих качество классификации. Описывается построение вектора документа. Приводятся полученные результаты тестирования классификатора для различных функций ядра. Для оценки качества используются такие характеристики, как точность, полнота и F1-мера. В качестве реализации метода опорных векторов используется библиотека scikit-learn. По результатам классификации тестовой выборки проводится анализ ошибок, делаются заключения о качестве классификации для данных коллекций документов.
DOI 10.14258/izvasu(2017)4-14
Скачивания
Metrics
Литература
Карташев Е.А., Царегородцев А.Л. Автоматизированная система поиска и анализа информации в сети Интернет // Фундаментальные исследования. — 2016. — № 10, ч. 2.
Вьюгин В.В. Математические основы машинного обучения и прогнозирования [Электронный ресурс]. — URL: http://elanbook.com/book/56397.
Fradkin D., Muchnik I. Support Vector Machines for Classification// Abello J. Carmode G. (Eds); Discrete Methods in Epidemiology, DIMACS Series in Discrete Mathematics and Theoretical Computer Science, volume 70, 2006.
Cristianini N., Shawe-Taylor J. An Introduction to Support Vector Machines and other kernel-based learning methods. — Cambridge, 2000.
Joachims T. Text categorization with support vector machines: learning with many relevant features // Proceedings of ECML-98, 10th European Conference on Machine Learning, Chemnitz, 1998.
Xu H., Caramanis C., Mannor Sh. Robustness and Regularization of Support Vector Machines // The Journal of Machine Learning Research, 10, 12/1/2009.
Support vector machines: scikit-learn [Electronic resourse]. — URL: http://scikit-learn.org/stable/modules/svm. html (дата обращения: 01.03.17).
Unbalanced problems of support vector machines: scikit-learn [Electronic resourse]. URL: http://scikit-learn.org/ stable/modules/svm.html#unbalanced-problems (дата обращения: 01.03.17).
Половикова О.Н. Анализ способов формализаций документов для выполнения семантического поиска // Известия Алтайского гос. ун-та. — 2012. — №1 (73).
Терновой О.С. Методика и средства раннего выявления и противодействия угрозам нарушения информационной безопасности в результате ddos атак // Известия Алтайского гос. ун-та. — 2013. — №1/2 (77). D0I:10.14258/ izvasu(2013)1.2-24.
Терновой О.С., Шатохин А.С. Использование байесовского классификатора для получения обучающих выборок, позволяющих определять вредоносный трафик на коротких интервалах // Известия Алтайского гос. ун-та. — 2013. — №1/1 (77).
Ямшанов М.Л. Оптимизация выбора параметров SVM-классификатора с ядром RBF для задач классификации текстовых документов // Вестник ВятГГУ — 2006. — №15.
Маслов М.Ю., Пяллинг А.А., Трифонов С.И. Автоматическая классификация веб-сайтов // Электронные библиотеки: перспективные методы и технологии, электронные коллекции : труды Десятой Всерос. науч. конф. «RCDL’2008». — Дубна, 2008.
Copyright (c) 2017 С.В. Волошин, А.Л. Царегородцев, Е.А. Карташев, В.В. Славский
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.