Упрощенный показатель силуэта для определения качества кластерных структур
УДК 519.254
Аннотация
Обсуждаются вопросы, связанные с оценкой качества построения кластерной структуры данных. Приведено описание показателя качества кластеризации, учитывающего характеристики компактности и отделимости кластеров, — показателя силуэта в двух вариантах: классического и упрощенного. Отмечено, что для вычисления классического показателя силуэта на большом массиве данных требуется трудоемкая процедура полного перебора пар объектов. Предложена вариация данного показателя, удобная для оценки кластерных структур, построенных на больших массивах данных, — упрощенный показатель силуэта. Рассмотренный показатель протестирован на модельных данных, по которым было построено несколько вариантов кластерных структур, таких, что отдельные кластеры представляли совокупность мини-кластеров. В качестве объектов при вычислении внутрикластерных и межкластерных расстояний были выбраны центры мини-кластеров с учетом их «веса» (в качестве веса задавалось число объектов в мини-кластерах). По каждой кластерной структуре тестового набора данных был вычислен соответствующий показатель силуэта. Проведенное сравнение значений классического и упрощенного показателей силуэта для каждого набора модельных данных дало адекватную оценку качества кластеризации.
Скачивания
Metrics
Литература
Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск, 1999.
Загоруйко Н.Г. Интеллектуальный анализ данных, основанный на функции конкурентного сходства // Автометрия. 2008. Т. 44. № 3.
Миркин Б.Г. Методы кластер-анализа для поддержки принятия решений: обзор. М., 2011.
Dronov S.V, Evdokimov E.A. Post-hoc cluster analysis of connection between forming characteristics // Model Assisted Statistics and Applications. 2018. Vol. 13. № 2. DOI: 10.3233/MAS-180429.
Журавлева В.В., Аюпов К.Е. Применение метода кластерного анализа для обнаружения зависимости обострений сердечно-сосудистых заболеваний от геофизических факторов : сб. научн. ст. Междунар. конф. «Ломоносовские чтения на Алтае: фундаментальные проблемы науки и образования». Барнаул, 2015.
Айдинян А.Р., Цветкова О.Л. Алгоритмы кластерного анализа для решения задач с асимметричной мерой близости // Сиб. журн. вычисл. матем. 2018. Т. 21. № 2. DOI: 10.15372/SJNM20180201.
Игнатьев Н.А. Кластерный анализ данных и выбор объектов-эталонов в задачах распознавания с учителем // Вычислительные технологии. 2015. Т. 20. № 6.
Савченко Т.Н. Применение методов кластерного анализа для анализа данных психологических исследований // Прикладная юридическая психология. 2008. № 4.
Сивоголовко Е.В. Оценка качества кластеризации в задачах интеллектуального анализа данных : дис. ... канд. физ.-мат. наук. СПб., 2014.
Паклин Н.Б., Орешков В.И. Кластерные силуэты // Системный анализ в проектировании и управлении : сб. научн. тр. XX Междунар. науч.-практич. конф. Ч. 2. СПб., 2016.
Журавлева В.В., Бондарева А.А. Описание одного алгоритма кластеризации типа Forel // МАК-2015 : сб. трудов 18-й Всеросс. конф. по математике. Барнаул, 2015.
Журавлева В.В. Об одном алгоритме кластеризации : сб. научн. ст. Междунар. конф. «Ломоносовские чтения на Алтае: фундаментальные проблемы науки и образования». Барнаул, 2015.
Copyright (c) 2022 Вера Владимировна Журавлева , Анастасия Станиславовна Маничева
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.