Новый алгоритм выявления и квантификации латентных классов
УДК 519.259
Аннотация
Работа с большими объемами данных может быть существенно упрощена, если эти данные разбиты на примерно однородные группы. Разбиение на такие группы — задача кластерного анализа. Однако вопрос о построении объективного, естественного разбиения на кластеры пока остается открытым. Рассматривается современный подход к поиску такой объективной кластерной структуры путем выделения из совокупности задающих объекты показателей общей существенной части. При ее фиксации формирующие показатели становятся независимыми или близкими к таковым. Получающиеся независимые остатки интерпретируются как своеобразный информационный шум, а латентная кластерная переменная, та общая фиксированная часть, которая обеспечивает такое превращение, — как причина объективного объединения объектов в кластеры. Предлагается новый алгоритм формирования кластерного разбиения на основе близости или совпадения значений латентной кластерной переменной с одновременной квантификацией ее значений. Алгоритм основан на целенаправленном переборе разбиений, переходе от стартового к разбиению, все более близкому к объективному. Предлагаемый алгоритм может быть просто перенесен на случай задания объектов нечисловыми категорированными показателями.
Скачивания
Metrics
Литература
Johnson J.M., Khoshgoftaar T.M. Survey on deep learning with class imbalance // J. Big Data. 2019. Vol. 6, 27. DOI 10.1186/s40537-019-0192-5.
Wu J., Dong M., Ota K., Li J. and Guan Z. Big Data Analysis-Based Secure Cluster Management for Optimized Control Plane in Software-Defined Networks // IEEE Transactions on Network and Service Management. 2018. Vol. 15. DOI: 10.1109/TNSM.2018.2799000.
Chen M., Mao S., Zhang Y., Leung V. Big Data. Related Technologies, Challenges, and Future Prospects. Spinger, 2014. DOI: 10.1007/978-3-319-06245-7.
Romesburg H.Ch. Cluster analysis for researchers. Lulu Press, 2007.
Chance B.L., Rossman A.J. Investigating statistical concepts, applications, and methods. Duxbury Press, 2013.
Mulaik S.A. Foundations of Factor Analysis. Boca Raton, 2009.
Bryukhanova E.A., Chekryzhova O.I., Dronov S.V. Spatial Approach to the Analysis of the Employment Data in Siberia Based on the 1897 Census (the Experience of the Multivariate Statistical Analysis of the Districts Data) // Journal of Siberian Federal University. Humanities & Social Sciences. 2016. № 7. DOI: 10.17516/1997-1370-20169-7-1651-1660.
Dronov S.V., Sazonova A.S. Two approaches to cluster variable quantification // Model Assisted Statistics and Applications. 2015. Vol. 10.
Vermunt J.K., Magidson J. Latent class cluster analysis // Applied latent class analysis. 2002. Vol. 11.
Rindskopf D. Latent Class Analysis. The SAGE Handbook of Quantitative Methods in Psychology. N.Y., 2009.
Gribel, D., Vidal T. HG-means: A scalable hybrid metaheuristic for minimum sum-of-squares clustering // Pattern Recognition. 2019. 88 (1). arXiv: 1804.09813.
Федоряева Т.И. Комбинаторные алгоритмы: учебное пособие. Новосибирск, 2011.
Дронов С.В. Методы и задачи многомерной статистики. Барнаул, 2015.
Copyright (c) 2020 Сергей Вадимович Дронов, Антон Юрьевич Шеларь

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.



