Новый алгоритм выявления и квантификации латентных классов

УДК 519.259

  • Сергей Вадимович Дронов Алтайский государственный университет (Барнаул, Россия) Email: dsv@math.asu.ru
  • Антон Юрьевич Шеларь Алтайский государственный университет (Барнаул, Россия) Email: shelaranton@gmail.com
Ключевые слова: объективное разбиение, кластерный анализ, латентный анализ классов, большие данные

Аннотация

Работа с большими объемами данных может быть существенно упрощена, если эти данные разбиты на примерно однородные группы. Разбиение на такие группы — задача кластерного анализа. Однако вопрос о построении объективного, естественного разбиения на кластеры пока остается открытым. Рассматривается современный подход к поиску такой объективной кластерной структуры путем выделения из совокупности задающих объекты показателей общей существенной части. При ее фиксации формирующие показатели становятся независимыми или близкими к таковым. Получающиеся независимые остатки интерпретируются как своеобразный информационный шум, а латентная кластерная переменная, та общая фиксированная часть, которая обеспечивает такое превращение, — как причина объективного объединения объектов в кластеры. Предлагается новый алгоритм формирования кластерного разбиения на основе близости или совпадения значений латентной кластерной переменной с одновременной квантификацией ее значений. Алгоритм основан на целенаправленном переборе разбиений, переходе от стартового к разбиению, все более близкому к объективному. Предлагаемый алгоритм может быть просто перенесен на случай задания объектов нечисловыми категорированными показателями.