Анализ качества бинарной классификации веб-страниц методом опорных векторов

  • С.В. Волошин Югорский научно-исследовательский институт информационных технологий (Ханты-Мансийск, Россия) Email: VoloshinSV@uriit.ru
  • А.Л. Царегородцев Югорский научно-исследовательский институт информационных технологий (Ханты-Мансийск, Россия) Email: TsaregorodtsevAL@uriit.ru
  • Е.А. Карташев Югорский научно-исследовательский институт информационных технологий (Ханты-Мансийск, Россия) Email: KartashevEA@uriit.ru
  • В.В. Славский Югорский государственный университет (Ханты-Мансийск, Россия) Email: slavsky2004@mail.ru
Ключевые слова: анализ данных, машинное обучение, метод опорных векторов, классификация текстов, бинарная классификация

Аннотация

Представлены результаты анализа качества бинарной классификации веб-страниц методом опорных векторов на наличие информации, распространение которой в Российской Федерации запрещено. Представлены данные для трех коллекций документов: «наркоторговля», «экстремизм», «терроризм». Коллекции документов сформированы по результатам работы специалистов с одной из существующих автоматизированных информационных систем поиска и анализа информации в интернете. Для каждой коллекции описываются соотношения классов, обучающей и тестовой выборок, распределение по типу интернет-ресурсов, а также часть проблем, затрудняющих построение классификатора или понижающих качество классификации. Описывается построение вектора документа. Приводятся полученные результаты тестирования классификатора для различных функций ядра. Для оценки качества используются такие характеристики, как точность, полнота и F1-мера. В качестве реализации метода опорных векторов используется библиотека scikit-learn. По результатам классификации тестовой выборки проводится анализ ошибок, делаются заключения о качестве классификации для данных коллекций документов.

DOI 10.14258/izvasu(2017)4-14

Скачивания

Данные скачивания пока недоступны.

Metrics

Загрузка метрик ...

Биографии авторов

С.В. Волошин, Югорский научно-исследовательский институт информационных технологий (Ханты-Мансийск, Россия)
программист Центра обработки информации
А.Л. Царегородцев, Югорский научно-исследовательский институт информационных технологий (Ханты-Мансийск, Россия)
кандидат технических наук, доцент, заместитель директора по науке
Е.А. Карташев, Югорский научно-исследовательский институт информационных технологий (Ханты-Мансийск, Россия)
руководитель Центра обработки информации
В.В. Славский, Югорский государственный университет (Ханты-Мансийск, Россия)
доктор физико-математических наук, профессор кафедры высшей математики

Литература

Карташев Е.А., Царегородцев А.Л. Автоматизированная система поиска и анализа информации в сети Интернет // Фундаментальные исследования. — 2016. — № 10, ч. 2.

Вьюгин В.В. Математические основы машинного обучения и прогнозирования [Электронный ресурс]. — URL: http://elanbook.com/book/56397.

Fradkin D., Muchnik I. Support Vector Machines for Classification// Abello J. Carmode G. (Eds); Discrete Methods in Epidemiology, DIMACS Series in Discrete Mathematics and Theoretical Computer Science, volume 70, 2006.

Cristianini N., Shawe-Taylor J. An Introduction to Support Vector Machines and other kernel-based learning methods. — Cambridge, 2000.

Joachims T. Text categorization with support vector machines: learning with many relevant features // Proceedings of ECML-98, 10th European Conference on Machine Learning, Chemnitz, 1998.

Xu H., Caramanis C., Mannor Sh. Robustness and Regularization of Support Vector Machines // The Journal of Machine Learning Research, 10, 12/1/2009.

Support vector machines: scikit-learn [Electronic resourse]. — URL: http://scikit-learn.org/stable/modules/svm. html (дата обращения: 01.03.17).

Unbalanced problems of support vector machines: scikit-learn [Electronic resourse]. URL: http://scikit-learn.org/ stable/modules/svm.html#unbalanced-problems (дата обращения: 01.03.17).

Половикова О.Н. Анализ способов формализаций документов для выполнения семантического поиска // Известия Алтайского гос. ун-та. — 2012. — №1 (73).

Терновой О.С. Методика и средства раннего выявления и противодействия угрозам нарушения информационной безопасности в результате ddos атак // Известия Алтайского гос. ун-та. — 2013. — №1/2 (77). D0I:10.14258/ izvasu(2013)1.2-24.

Терновой О.С., Шатохин А.С. Использование байесовского классификатора для получения обучающих выборок, позволяющих определять вредоносный трафик на коротких интервалах // Известия Алтайского гос. ун-та. — 2013. — №1/1 (77).

Ямшанов М.Л. Оптимизация выбора параметров SVM-классификатора с ядром RBF для задач классификации текстовых документов // Вестник ВятГГУ — 2006. — №15.

Маслов М.Ю., Пяллинг А.А., Трифонов С.И. Автоматическая классификация веб-сайтов // Электронные библиотеки: перспективные методы и технологии, электронные коллекции : труды Десятой Всерос. науч. конф. «RCDL’2008». — Дубна, 2008.

Как цитировать
Волошин С., Царегородцев А., Карташев Е., Славский В. Анализ качества бинарной классификации веб-страниц методом опорных векторов // Известия Алтайского государственного университета, 1, № 4(96) DOI: 10.14258/izvasu(2017)4-14. URL: http://izvestiya.asu.ru/article/view/%282017%294-14.