НЕЙРОСЕТЕВАЯ МОДЕЛЬ РАСПОЗНАВАНИЯ ЭМОЦИЙ ПО ГОЛОСУ

Автор(и)

  • Liudmyla Tereikovska Київський національний університет будівництва і архітектури, Повітрофлотський пр. 31, м. Київ, Україна, 03680, Ukraine https://orcid.org/0000-0002-8830-0790

DOI:

https://doi.org/10.32347/2412-9933.2020.41.95-100

Ключові слова:

эмоции, распознавание эмоций, голосовой сигнал, нейросетевая модель, мел-кепстральные коэффициенты, квазистационарный фрагмент

Анотація

Разработаны средства распознавания эмоционального состояния диктора. Показана перспективность использования нейронных сетей для анализа фиксированных фрагментов голосового сигнала. Установлена необходимость адаптации вида и параметров нейросетевой модели к условиям задачи распознавания эмоций по голосу. В результате проведенных исследований определено, что в задаче распознавания эмоций диктора по голосовым фрагментам фиксированной продолжительности целесообразно использовать двухслойный персептрон, входные параметры которого ассоциируются с мел-кепстральными коэффициентами, характеризующими каждый из квазистационарных фрагментов анализируемого голосового сигнала, а выходные параметры соответствуют распознаваемым эмоциям диктора. Целесообразность использования двухслойного персептрона подтверждена с помощью компьютерных экспериментов. Определено, что направления дальнейших исследований связаны с определением количества мел-кепстральных коэффициентов, которое является достаточным для описания одного квазистационарного фрагмента, и адаптацией параметров двухслойного персептрона к условиям распознавания при воздействии помех различного вида.

Біографія автора

Liudmyla Tereikovska, Київський національний університет будівництва і архітектури, Повітрофлотський пр. 31, м. Київ, Україна, 03680

Доктор технічних наук, професор

Кафедра основ інформатики

Посилання

Aitchanov B., Korchenko A., Tereykovskiy I., Bapiyev I. Perspectives for using classical neural network models and methods of counteracting attacks on network resources of information systems. News of the national academy of sciences of the republic of Kazakhstan series of geology and technical sciences. 2017. Vol. 5, No 425. Pp. 202-212.

Ajinkya N., Nagaraj V., Dharwadkar P. A Speaker Recognition System Using Gaussian Mixture Model, EM Algorithm and K-Means Clustering. International Journal of Modern Education and Computer Science. 2018. Vol.10. No.11. Pp. 19-28.

Akhmetov B., Tereykovsky I., Doszhanova A., Tereykovskaya L. Determination of input parameters of the neural network model, intended for phoneme recognition of a voice signal in the systems of distance learning. International Journal of Electronics and Telecommunications. 2018. Vol. 64, No 4. Pp. 425-432.

Altincay H., Demirekler M. Speaker identification by combining multiple classifiers using Dempster–Shafer theory of evidence. Speech Communication. 2003. Vol. 41, No 4. Pp.531–547.

Ehsan V., Xin L., Erik M., Ignacio L., Javier G. Deep neural networks for small footprint text-dependent speaker verification. In Acoustics, Speech and Signal Processing. 2014. IEEE International Conference. Pp. 4052–4056.

Geeta N., Soni M. A New Design Approach for Speaker Recognition Using MFCC and VAD. IJIGSP. 2013. Vol. 5. No 9. Pp.43 – 49.

He L. Stress and Emotion Recognition in Natural Speech in the Work and Family Environments: Ph.D. Dissertation. – RMIT University, 2010. 197 p.

Hu, Z., Tereykovskiy, I., Zorin, Y., Tereykovska, L., Zhibek, A. Optimization of convolutional neural network structure for biometric authentication by face geometry. Advances in Intelligent Systems and Computing. 2018. Vol. 754. Pp 567-577.

Ing-Jr D., Chih-Ta Y., Yen-Ming H. Developments of Machine Learning Schemes for Dynamic Time-Wrapping-Based Speech Recognition. Mathematical Problems in Engineering. 2013. Pp. 56-68.

Jung N, Wranke C, Hamburger K, Knauff M. How emotions affect logical reasoning: evidence from experiments with mood-manipulated participants, spider phobics, and people with exam anxiety. Front Psychol. 2014. 5:570.

Karam Z., Campbell W. A new kernel for SVM MLLR based speaker recognition. In: Proc. Interspeech 2007 (ICSLP), Antwerp, Belgium, August 2007. Pp. 290–293.

Konar A., Chakraborty A. Emotion recognition: a pattern analysis approach. Wiley. 2015. P. 583.

Littlewor, G., Whitehill J., Wu T., Fasel I., Frank M., Movellan J., Bartlett M. The Computer Expression Recognition Toolbox (CERT). Proceedings of the IEEE International Conference on Automatic Face and Gesture Recognition. 2011, 298 – 305.

Satyanand S., Abhay K., David R. Efficient Modelling Technique based Speaker Recognition under Limited Speech Data. International Journal of Image, Graphics and Signal Processing. 2016. Vol.8. No.11. Pp.41-48.

Tereikovska L., Tereikovskyi I., Mussiraliyeva S., Akhmed G., Beketova A., Sambetbayeva A. Recognition of emotions by facial Geometry using a capsule neural network. International Journal of Civil Engineering and Technology. 2019 Vol. 10. Issue 04. Pp. 270-279.

Russell J., Bachorowski J., Fernandez-Dols J. Facial and vocal expressions of emotion. Annu Rev Psychol. 2003. Vol. 54. Pp. 329-339.

Um E., Plass J., Hayward E., Homer B. Emotional design in multimedia learning. Educ. Psychol. J. 2012. Pp. 485–498.

Zhang W., Deng Y., He L., Liu J. Variant Time-Frequency Cepstral Features for Speaker Recognition. Interspeech. 2010. Pp. 2122-2125.

##submission.downloads##

Опубліковано

2020-03-27

Як цитувати

Tereikovska, L. (2020). НЕЙРОСЕТЕВАЯ МОДЕЛЬ РАСПОЗНАВАНИЯ ЭМОЦИЙ ПО ГОЛОСУ. Управління розвитком складних систем, (41), 95–100. https://doi.org/10.32347/2412-9933.2020.41.95-100

Номер

Розділ

ІНФОРМАЦІЙНІ ТЕХНОЛОГІЇ ПРОЄКТУВАННЯ