Обобщенный алгоритм поиска выбросов в регрессионной модели
УДК 510.5
Аннотация
Одним из активно развивающихся направлений современных вычислительных задач является анализ данных. Изучаемые данные обладают различной структурой, что вызывает определенные трудности в процессе их сглаживания и анализа. Это влечет за собой потребность поиска новых универсальных алгоритмов обработки данных, создания компьютерных программ, обеспечивающих анализ данных различной природы. На сегодняшний день широко применяемым методом обработки данных является регрессионное моделирование. Оно применяется в задачах распознавания образов, классификации, снижения размерности и многих других. Очень важным требованием к качеству таких моделей является отсутствие в данных резко выделяющихся наблюдений (выбросов).
В представленной статье рассматривается метод исследования выборки на предмет выбросов. Полученный алгоритм может быть применен к регрессионным моделям, оцениваемым наиболее распространенными методами (метод наименьших квадратов, метод наименьших модулей). Математической основой данной процедуры является преобразование Лежандра, что обеспечивает при компьютерной реализации вычислительную точность. Адекватность полученного алгоритма была исследована на ряде тестовых выборок. Все испытания дали положительный результат с точки зрения определения выбросов. Был создан комплекс программ в системе MatLab, который позволяет строить различные регрессионные модели, а также оценивать исходную выборку на предмет резко выделяющихся наблюдений.
Скачивания
Metrics
Литература
Стрижов В.В., Крымова Е.А. Методы выбора регрессионных моделей. М., 2010.
Мудров В.И., Кушко В.Л. Метод наименьших модулей. М., 1971.
Armstrong R.D., Kung D.S. Algorithm AS132: Least absolute value estimates for a simple linear regression problem // Appl. Stat. 1978. Vol. 7.
Weisberg S. Applied linear regression. 3rd ed. Jonh Wiley & Sans, Inc., 2005.
Мостеллер Ф., Тьюки Дж. Анализ данных и регрессия / пер. с англ. М., 1982. Вып. 1, 2.
Cook R.D. Detection of Influential Observation in Linear Regression // Technometrics. 1977. Vol. 19(1).
Andrews D.F., Pregibоn D. Finding the outliers that matter // Journal of the Royal Statistical Society. 1978. Vol. 40.
Пономарев И.В., Саженкова Т.В., Славский В.В. Метод поиска экстремальных наблюдений в задаче нечеткой регрессии // Известия Алт. гос. ун-та. 2018. № 4(102). DOI: 10.14258/izvasu(2021)1-17.
Arthur Zimek, Peter Filzmoser. There and back again: Outlier detection between statistical reasoning and data mining algorithms // Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery 2018. Vol. 8. № 6. DOI: 10.1002/widm.1280.
Campello R.J.G.B., Moulavi D., Zimek A., Sander J. Hierarchical Density Estimates for Data Clustering, Visualization, and Outlier Detection // ACM Transactions on Knowledge Discovery from Data. 2015. Vol. 10. № 1. DOI: 10.1145/2733381.
Copyright (c) 2021 Мария Викторовна Куркина , Игорь Викторович Пономарев
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.