CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

بازشناسی احساس از روی گفتار بر پایه ی بهره گیری از شبکه های عصبی پیچشی سه بعدی و چند مقیاسه کردن ابعاد ورودی

عنوان مقاله: بازشناسی احساس از روی گفتار بر پایه ی بهره گیری از شبکه های عصبی پیچشی سه بعدی و چند مقیاسه کردن ابعاد ورودی
شناسه ملی مقاله: ECMM04_002
منتشر شده در چهارمین کنفرانس بین المللی تحقیقات بین رشته ای در مهندسی برق، کامپیوتر، مکانیک و مکاترونیک در ایران و جهان اسلام در سال 1399
مشخصات نویسندگان مقاله:

وحید احمدیان - دانشگاه صدا و سیمای جمهوری اسلامی ایران
معصومه شفیعیان - دانشگاه صدا و سیمای جمهوری اسلامی ایران
مجید بهداد - دانشگاه صدا و سیمای جمهوری اسلامی ایران

خلاصه مقاله:
هدف از سیستم های بازشناسی احساس از روی گفتار ایجاد ارتباط عاطفی بین انسان و ماشین است. چرا که بازشناسی احساس و اهداف انسان از روی گفتار، به بهبود تعاملات بین انسان و ماشین کمک می کند. بازشناسی احساس از روی گفتار برای محققان در دهه گذشته یک مساله چالش برانگیز بوده است. اما با پیشرفت در حوزه هوش مصنوعی این چالش ها کم رنگ تر شدند. در این پژوهش، با استفاده از روش های یادگیری عمیق در جهت بهتر کردن کارایی این سیستم ها گام نهادیم. کار انجام شده از چندین مرحله تشکیل شده است. در مرحله اول از شبکه های عصبی پیچشی سه بعدی برای یادگیری ویژگی های طیفی زمانی گفتار استفاده شده است. در مرحله دوم برای قدرتمند کردن مدل پیشنهادی از معماری چند مقیاسه برای سیستم های بازشناسی احساس از روی گفتار است را مدل MSID 3DCNN نامیدیم. پژوهش انجام شده و مدل نهایی را روی ترکیب دو پایگاه داده گفتار معمولی و گفتار آوازی از پایگاه داده راودسی که یک پایگاه داده چند حالته است؛ انجام دادیم. متایجی که با استفاده از مدل پیشنهادی گرفتیم؛ نسبت به مدل های مرسوم، نتایج امیدوار کننده ای است. ما در این پژوهش برای شش کلاس احساسی به تفکیک جنسیت، به دفت 78/8 درصد رسیدیم.

کلمات کلیدی:
بازشناسی احساسی از روی گفتار، شبکه های عصبی پیچشی سه بعدی، مدل چند مقایسه روی ابعاد ورودی، ویژگی های مدل طیفی زمانی، پایگاه داده راودیس

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1184118/