Обобщенный алгоритм поиска выбросов в регрессионной модели

УДК 510.5

  • Мария Викторовна Куркина Югорский государственный университет (Ханты-Мансийск, Россия) Email: mavi@inbox.ru
  • Игорь Викторович Пономарев Алтайский государственный университет (Барнаул, Россия) Email: igorpon@mail.ru
Ключевые слова: линейная регрессия, метод наименьших квадратов, метод наименьших модулей, статистические выбросы

Аннотация

Одним из активно развивающихся направлений современных вычислительных задач является анализ данных. Изучаемые данные обладают различной структурой, что вызывает определенные трудности в процессе их сглаживания и анализа. Это влечет за собой потребность поиска новых универсальных алгоритмов обработки данных, создания компьютерных программ, обеспечивающих анализ данных различной природы. На сегодняшний день широко применяемым методом обработки данных является регрессионное моделирование. Оно применяется в задачах распознавания образов, классификации, снижения размерности и многих других. Очень важным требованием к качеству таких моделей является отсутствие в данных резко выделяющихся наблюдений (выбросов).

В представленной статье рассматривается метод исследования выборки на предмет выбросов. Полученный алгоритм может быть применен к регрессионным моделям, оцениваемым наиболее распространенными методами (метод наименьших квадратов, метод наименьших модулей). Математической основой данной процедуры является преобразование Лежандра, что обеспечивает при компьютерной реализации вычислительную точность. Адекватность полученного алгоритма была исследована на ряде тестовых выборок. Все испытания дали положительный результат с точки зрения определения выбросов. Был создан комплекс программ в системе MatLab, который позволяет строить различные регрессионные модели, а также оценивать исходную выборку на предмет резко выделяющихся наблюдений.

Скачивания

Данные скачивания пока недоступны.

Metrics

Загрузка метрик ...

Биографии авторов

Мария Викторовна Куркина , Югорский государственный университет (Ханты-Мансийск, Россия)

кандидат физико-математических наук, доцент

Игорь Викторович Пономарев , Алтайский государственный университет (Барнаул, Россия)

кандидат физико-математических наук, доцент кафедры математического анализа

Литература

Стрижов В.В., Крымова Е.А. Методы выбора регрессионных моделей. М., 2010.

Мудров В.И., Кушко В.Л. Метод наименьших модулей. М., 1971.

Armstrong R.D., Kung D.S. Algorithm AS132: Least absolute value estimates for a simple linear regression problem // Appl. Stat. 1978. Vol. 7.

Weisberg S. Applied linear regression. 3rd ed. Jonh Wiley & Sans, Inc., 2005.

Мостеллер Ф., Тьюки Дж. Анализ данных и регрессия / пер. с англ. М., 1982. Вып. 1, 2.

Cook R.D. Detection of Influential Observation in Linear Regression // Technometrics. 1977. Vol. 19(1).

Andrews D.F., Pregibоn D. Finding the outliers that matter // Journal of the Royal Statistical Society. 1978. Vol. 40.

Пономарев И.В., Саженкова Т.В., Славский В.В. Метод поиска экстремальных наблюдений в задаче нечеткой регрессии // Известия Алт. гос. ун-та. 2018. № 4(102). DOI: 10.14258/izvasu(2021)1-17.

Arthur Zimek, Peter Filzmoser. There and back again: Outlier detection between statistical reasoning and data mining algorithms // Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery 2018. Vol. 8. № 6. DOI: 10.1002/widm.1280.

Campello R.J.G.B., Moulavi D., Zimek A., Sander J. Hierarchical Density Estimates for Data Clustering, Visualization, and Outlier Detection // ACM Transactions on Knowledge Discovery from Data. 2015. Vol. 10. № 1. DOI: 10.1145/2733381.

Опубликован
2021-09-10
Как цитировать
Куркина М. В., Пономарев И. В. Обобщенный алгоритм поиска выбросов в регрессионной модели // Известия Алтайского государственного университета, 2021, № 4(120). С. 102-105 DOI: 10.14258/izvasu(2021)4-16. URL: http://izvestiya.asu.ru/article/view/%282021%294-16.

Наиболее читаемые статьи этого автора (авторов)