Разработка сверточной нейронной сети для классификации амплитудно-частотных характеристик аудиосигналов

УДК 534.87

  • Владислав Николаевич Попов Алтайский государственный университет (Барнаул, Россия) Email: oskage.work@gmail.com
  • Павел Сергеевич Ладыгин Алтайский государственный университет (Барнаул, Россия) Email: pavelladygin@yandex.ru
  • Валентин Витальевич Карев Алтайский государственный университет (Барнаул, Россия) Email: krv.valentin@gmail.com
  • Яна Игоревна Борцова Алтайский государственный университет (Барнаул, Россия) Email: server2791@mail.ru
Ключевые слова: сверточная нейронная сеть, Det-кривые, классификация, косинусное сходство, предсказательная модель

Аннотация

Применена технология глубокой сверточной нейронной сети к обработке аудиофайлов, в частности для классификации амплитудно-частотных характеристик аудиосигналов. Сопоставление аудиофрагментов между собой сведено к решению задачи верификации дикторов. В качестве набора данных для обучения глубокой сверточной нейронной сети собрана большая репрезентативная выборка аудиосигналов и дополнена удовлетворяющим требованиям набором данных Free Music Archive, который содержит свободно распространяемые аудиозаписи музыкальных произведений. Для предотвращения переобучения предсказательной модели применены четыре типа аугментации, в том числе гауссовый шум, реверберация, изменение частоты основного тона, изменение темпа аудиосигнала. В качестве предсказательной модели была взята архитектура CQT-Net. Для сравнения векторов признаков используется косинусное сходство. Качество верификации было протестировано на двух выборках, состоящих из 1500 аудиозаписей, которые не использовались во время обучения. Построены Det-кривые для наборов данных, в том числе тестовых с измененным темпом и с измененным питчем. В роли метрики качества модели использован равный уровень ошибок (коэффициент Equal Error Rate). Оценена вероятность выявления наиболее применяемых искажений аудиосигналов в амплитудно-частотной области (не менее 92 %), что говорит о надежности полученной системы.

Скачивания

Данные скачивания пока недоступны.

Metrics

Загрузка метрик ...

Биографии авторов

Владислав Николаевич Попов, Алтайский государственный университет (Барнаул, Россия)

студент Института цифровых технологий, электроники и физики

Павел Сергеевич Ладыгин, Алтайский государственный университет (Барнаул, Россия)

старший преподаватель кафедры информационной безопасности

Валентин Витальевич Карев, Алтайский государственный университет (Барнаул, Россия)

студент Института цифровых технологий, электроники и физики

Яна Игоревна Борцова , Алтайский государственный университет (Барнаул, Россия)

старший преподаватель кафедры информационной безопасности

Литература

Бринк Х., Ричардс Дж., Феверолф М. Машинное обучение. СПб., 2017.

Furui, S., Rosenberg, A.E. Speaker Verification. Digital Signal Processing Handbook. CRC Press LLC, 1999.

Bimbot F. et al. A Tutorial on Text-Independent Speaker Verification. EURASIP Journal on Advances in Signal Processing. 2004. № 4.

Kim J.W Salamon J. Li P. Crepe: A Convolutional Representation for Pitch Estimation. Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). 2018. URL: https://arxiv.org/ pdf/1802.06182.pdf (дата обращения: 13.12.2021).

Bock S. Krebs F., Widmer G. Accurate Tempo Estimation Based on Recurrent Neural Networks and Resonating Comb Filters ISMIR. 2015. URL: http://www.cp.jku.at/research/ papers/Boeck_etal_ISMIR. (дата обращения: 13.12.2021).

Li Z., Yang W., Peng Sh., Liu F. A Survey of Convolutional Neural Networks: Analysis, Applications, and Prospects. Hohai University, Nanjing, China. 2020. URL: https://arxiv. org/ftp/arxiv/papers/2004/2004.02806.pdf (дата обращения: 13.12.2021).

Попов В.Н., Ладыгин П.С., Борцова Я.И., Карев В.В. Подготовка набора данных для обучения нейронной сети, используемой в задачах сравнения аудиофайлов // Проблемы правовой и технической защиты информации. Барнаул, 2021. Вып. IX.

Defferrard M., Benzi K., Vandergheynst P., Bresson X. FMA: A Dataset For Music Analysis. 18th International Society for Music Information Retrieval Conference, Suzhou, China. 2017. URL: https://arxiv.org/pdf/1612.01840.pdf (дата обращения: 13.12.2021).

Yu Zh., Xu X., Chen X., Yang D. Learning a Representation for Cover Song Identification Using Convolutional Neural Network. 2019. URL: http:// https://arxiv.org/abs/1911.00334 (дата обращения: 13.12.2021).

McFee B., Raffel C., Liang D., PW Ellis D., McVicar M., Battenberg E., and Nieto O. Librosa: Audio and music signal analysis in python. Proc. of the 14th python in science conf. 2015. URL: http://conference.scipy.org/proceedings/scipy2015/ pdf. (дата обращения: 13.12.2021).

Goodfellow I., Bengio Y., Courville A. Deep learning: The MIT Press, 2016.

Опубликован
2022-03-18
Как цитировать
Попов В. Н., Ладыгин П. С., Карев В. В., Борцова Я. И. Разработка сверточной нейронной сети для классификации амплитудно-частотных характеристик аудиосигналов // Известия Алтайского государственного университета, 2022, № 1(123). С. 116-120 DOI: 10.14258/izvasu(2022)1-19. URL: http://izvestiya.asu.ru/article/view/%282022%291-19.