سیویلیکا را در شبکه های اجتماعی دنبال نمایید.

بازشناسی احساسات از روی گفتار با استفاده از ترکیب شبکه های عصبی ترنسفورمر و کانولوشنی

Publish Year: 1401
Type: Journal paper
Language: Persian
View: 486

This Paper With 21 Page And PDF Format Ready To Download

Export:

Link to this Paper:

Document National Code:

JR_JIPET-13-52_006

Index date: 25 December 2021

بازشناسی احساسات از روی گفتار با استفاده از ترکیب شبکه های عصبی ترنسفورمر و کانولوشنی abstract

بازشناسی احساسات از روی گفتار با توجه به کاربردهای متنوع آن امروزه مورد توجه بسیاری از محققان قرار گرفته است. با پیشرفت روش های آموزش شبکه های عصبی عمیق وگسترش استفاده از آن در کاربردهای مختلف، در این مقاله کاربرد شبکه های کانولوشنی و ترنسفورمر در یک ترکیب جدید در بازشناسی احساسات گفتاری مورد بررسی قرار گرفته که از لحاظ پیاده سازی نسبت به روش های موجود ساده تر بوده و عملکرد مطلوبی نیز دارد. برای این منظور شبکه های عصبی کانولوشنی و ترنسفورمر پایه معرفی شده و سپس مبتنی بر آنها یک مدل جدید حاصل از ترکیب شبکه های کانولوشنی و ترنسفورمر ارایه شده که در آن خروجی مدل کانولوشنی پایه ورودی مدل ترنسفورمر پایه است. نتایج حاصل نشان می دهد که استفاده از شبکه های عصبی ترنسفورمر در بازشناسی بعضی از حالت های احساسی عملکرد بهتری نسبت به روش کانولوشنی دارد. همچنین در این مقاله نشان داده شده که استفاده از شبکه های عصبی ساده به­صورت ترکیبی عملکرد بهتری در بازشناسی احساسات از روی گفتار می تواند داشته باشد. در این رابطه بازشناسی احساسات گفتاری با استفاده از ترکیب شبکه های عصبی کانولوشنی و ترنسفورمر با نام کانولوشنال-ترنسفورمر (CTF) برای دادگان راودس دقتی برابر ۹۴/۸۰ درصد به­دست آورد؛ در حالی­که یک شبکه عصبی کانولوشنی ساده دقتی در حدود ۷/۷۲ درصد به­دست آورد. همچنین ترکیب شبکه های عصبی ساده علاوه بر اینکه می تواند دقت بازشناسی را افزایش دهد، می تواند زمان آموزش و نیاز به نمونه های آموزشی برچسب دار را نیز کاهش دهد.

بازشناسی احساسات از روی گفتار با استفاده از ترکیب شبکه های عصبی ترنسفورمر و کانولوشنی Keywords:

بازشناسی احساسات از روی گفتار با استفاده از ترکیب شبکه های عصبی ترنسفورمر و کانولوشنی authors

یوسف پورابراهیم

دانشکده مهندسی برق و کامپیوتر- واحد علوم و تحقیقات، دانشگاه آزاد اسلامی، تهران، ایران

فربد رزازی

دانشکده مهندسی برق و کامپیوتر- واحد علوم و تحقیقات، دانشگاه آزاد اسلامی، تهران، ایران

حسین صامتی

دانشکده مهندسی کامپیوتر- دانشگاه صنعتی شریف، تهران، ایران

مراجع و منابع این Paper:

لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :
K. Han, D. Yu, I. Tashev, "Speech emotion recognition using ...
A. M. Badshah, J. Ahmad, N. Rahim, S.W. Baik, "Speech ...
S. Mittal, S. Agarwal, M.J. Nigam, "Real time multiple face ...
H.S. Bae, H.J. Lee, S.G. Lee, "Voice recognition based on ...
K. He, X. Zhang, S. Ren, J. Sun, "Deep residual ...
K.Y. Huang, C.H. Wu, Q.B. Hong, M.H. Su, Y.H. Chen, ...
W. Lim, D. Jang, T. Lee, "Speech emotion recognition using ...
G. Trigeorgis, F. Ringeval, R. Brueckner, E. Marchi, M.A. Nicolaou, ...
Y. Pourebrahim, F. Razzazi, H. Sameti, "Semi-supervised parallel shared encoders ...
N. Yazdanian, H. Mahmodian, "Emotion recognition of speech signals based ...
M. Kadkhodaei Elyaderani, S.H. Mahmoodian, G. Sheikhi, "Wavelet packet entropy ...
D. Issa, M.F. Demirci, A. Yazici, "Speech emotion recognition with ...
J. Zhao, X. Mao, L. Chen, "Speech emotion recognition using ...
S. Kwon, "A CNN-assisted enhanced audio signal processing for speech ...
M. Farooq, F. Hussain, N.K. Baloch, F.R. Raja, H. Yu, ...
M. Sajjad, S. Kwon, "Clustering-based speech emotion recognition by incorporating ...
M.S. Fahad, A. Ranjan, J. Yadav, A. Deepak, "A survey ...
A. Vaswani, N, Shazeer, N. Parmar, J. Uszkoreit, L. Jones, ...
N. Parmar, A. Vaswani, J. Uszkoreit, L. Kaiser, N. Shazeer, ...
D. Povey, H. Hadian, P. Ghahremani, K. Li, S. Khudanpur, ...
P.J. Liu, M. Saleh, E. Pot, B. Goodrich, R. Sepassi, ...
C. Huang, A. Vaswani, J. Uszkoreit, N. Shazeer, C. Hawthorne, ...
P. Shegokar, P. Sircar, "Continuous wavelet transform based speech emotion ...
S.R. Livingstone, F.A. Russo, "The ryerson audio-visual database of emotional ...
B. Zhang, E.M. Provost, G. Essl, "Cross-corpus acoustic emotion recognition ...
Y. Zeng, H. Mao, D. Peng, Z. Yi, "Spectrogram based ...
A.S. Popova, A.G. Rassadin, A.A. Ponomarenko, "Emotion recognition in sound", ...
S. Kwon, "CLSTM: Deep feature-based speech emotion recognition using the ...
F. Chollet, "Deep learning with python", New York, NY: Manning ...
M.S. Seyfioğlu, A.M. Özbayoğlu, S.Z. Gürbüz, "Deep convolutional autoencoder for ...
V. Verma, N. Agarwal, N. Khanna, "DCT-domain deep convolutional neural ...
A. Bhavan, P. Chauhan, R.R. Shah, "Bagged support vector machines ...
نمایش کامل مراجع