Система обнаружения атак воспроизведением речи, основанная на смеси алгоритмов классификации

  • А.А. Лепендин Алтайский государственный университет (Барнаул, Россия)
  • Я.А. Филин Алтайский государственный университет (Барнаул, Россия)
  • П.В. Малинин Алтайский государственный университет (Барнаул, Россия)
Ключевые слова: верификация дикторов, подделка голоса, атаки воспроизведением, универсальная базовая модель, i-вектор, вероятностный линейный дискриминантный анализ, бустинг на деревьях принятия решений, смешивание моделей

Аннотация

Быстрое развитие современных технологий цифровой обработки и записи речевых сигналов привело к тому, что стал актуальным учет потенциальных угроз, связанных с атаками на биометрические системы аутентификации, которые основаны на воспроизведении речи. В работе предложен подход к детектированию подобных атак при помощи ансамбля из нескольких классификаторов. В качестве информативных признаков речевого сигнала применялись Q-константные кепстральные коэффициенты. Проводилась их нормализация путем вычитания кепстрального среднего, оцениваемого на коротком временном интервале. Множество использованных бинарных классификаторов состояло из алгоритма на гауссовых смесях, гауссового вероятностного линейного дискриминантного анализа в сочетании с извлечением i-векторов речевых сигналов и алгоритма XGBoost. Смешивание осуществлялось при помощи модифицированного алгоритма логистической регрессии. Качество работы предложенного подхода оказалось существенно выше базового метода, основанного на применении смесей гауссовых распределений. Дополнительное существенное улучшение качества было связано с предобработкой кепстральных коэффициентов. Было показано, что качество работы, близкое к наилучшему, может быть достигнуто при смешивании небольшого числа классификаторов. Достигнутое значение частоты ошибок EER = 12.44% для смеси классификаторов близко к лучшим из достигнутых к нынешнему моменту.

DOI 10.14258/izvasu(2018)1-19

Скачивания

Данные скачивания пока не доступны.

Metrics

Загрузка метрик ...

Биографии авторов

А.А. Лепендин, Алтайский государственный университет (Барнаул, Россия)
кандидат физико-математических наук, доцент кафедрыприкладной физики, электроники и информационной безопасности Алтайского государственногоуниверситета
Я.А. Филин, Алтайский государственный университет (Барнаул, Россия)
магистрант кафедры прикладной физики, электроники и информационной безопасности Алтайского государственного университета
П.В. Малинин, Алтайский государственный университет (Барнаул, Россия)
кандидат технических наук, доцент кафедры прикладной физики, электроники и информационной безопасности Алтайского государственного университета

Литература

Kinnunen T., Sahidullah M., Delgado H., Todisco M., Evans N., Yamagishi J., Lee K.A. The ASVspoof 2017 challenge: Assessing the limits of replay spoofing attack detection // Proc. INTERSPEECH 2017. 2017. D01:10.21437/ Interspeech.2017-1111.

Wu Z., Yamagishi J., Kinnunen T., Hanil^i C., Sahidullah M., Sizov A., Evans N., Todisco M., Delgado H. ASVspoof: The Automatic Speaker Verification Spoofing and Countermeasures Challenge // IEEE Journal of Selected Topics in Signal Processing. — 2017. — Vol. 11, No. 4. D0I:10.1109/ JSTSP2017.2671435.

K. Lee, A. Larcher, G. Wang, P. Kenny, N. Brummer, D. A. van Leeuwen, H. Aronowitz, et al. The RedDots data collection for speaker recognition // Proc. Interspeech, Annual Conf. of the Int. Speech Comm. Assoc., 2015.

Morrison G.S. Tutorial on logistic-regression calibration and fusion:converting a score to a likelihood ratio // Australian Journal of Forensic Sciences. — 2013. — Vol. 45, No. 2. DOI: 10.1080/00450618.2012.733025.

Reynolds D.A., Quatieri T.F., Dunn R.B. Speaker verification using adapted Gaussian mixture models // Digital Signal Processing. — 2000. — Vol. 10, No. 1. DOI: 10.1006/ dspr.1999.0361.

Senoussaoui M., Kenny P, Dehak N., Dumouchel P An i-vector extractor suitable for speaker recognition with both micro-phone and telephone speech // Proc. Odyssey Speaker and Language Recogntion Workshop, 2010.

Verma P, Das PK. I-vectors in speech processing applications: a survey // International Journal of Speech Technolng. — 2015. — Vol. 18, No. 4. DOI: 10.1007/978-981-10-6626-9_18.

Chen T., Guestrin C. XGBoost: A Scalable Tree Boosting System // KDD’16 Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2016.

Shikha G., Jaafar J., Fatimah W., Ahmad W., Bansal A. Feature Extraction using MFCC // International Journal of signal and image processing (SIPIJ). — 2013. — Vol. 4, No. 4. DOI: 10.5121/sipij.2013.4408.

Todisco M., Delgado H., Evans N. A new feature for automatic speaker verification anti-spoofing: Constant Q cepstral coefficients // Speaker Odyssey Workshop, Bilbao, Spain. 2016.

Brown J. C. Calculation of a constant Q spectral transform // Journal of Acoustic Society America. — 1991. — Vol. 89, No. 1.

Alam M., Ouellet P, Kenny P., O’Shaughnessy D. Comparative evaluation of feature normalization techniques for speaker verification // Advances in Nonlinear Speech Processing: 5th International Conference on Nonlinear Speech Processing, NOLISP 2011. DOI: 10.1007/978-3-642-25020-0_32.

Dehak N., Kenny P, Dehak R., Dumouchel P., Ouellet P. Front-End Factor Analysis For Speaker Verification // IEEE Transactions on Audio, Speech and Language Processing. — 2010. — Vol. 19, No. 4. DOI: 10.1109/TASL.2010.2064307.

Sadjadi S. O., Slaney M., Heck L. MSR identity toolbox v1.0: A MATLAB toolbox for speaker recognition research // Proc. IEEE Signal Process. Soc. Speech Lang. Tech. Committee Newsl. 2013.

Опубликован
2018-03-06
Как цитировать
1. Лепендин А., Филин Я., Малинин П. Система обнаружения атак воспроизведением речи, основанная на смеси алгоритмов классификации // Известия Алтайского государственного университета, 2018. № 1(99). С. 107-112. URL: http://izvestiya.asu.ru/article/view/%282018%291-19.