بازشناسی احساس از روی گفتار بر پایه ی بهره گیری از شبکه های عصبی پیچشی سه بعدی و چند مقیاسه کردن ابعاد ورودی

Publish Year: 1399
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 378

This Paper With 6 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

ECMM04_002

تاریخ نمایه سازی: 1 اردیبهشت 1400

Abstract:

هدف از سیستم های بازشناسی احساس از روی گفتار ایجاد ارتباط عاطفی بین انسان و ماشین است. چرا که بازشناسی احساس و اهداف انسان از روی گفتار، به بهبود تعاملات بین انسان و ماشین کمک می کند. بازشناسی احساس از روی گفتار برای محققان در دهه گذشته یک مساله چالش برانگیز بوده است. اما با پیشرفت در حوزه هوش مصنوعی این چالش ها کم رنگ تر شدند. در این پژوهش، با استفاده از روش های یادگیری عمیق در جهت بهتر کردن کارایی این سیستم ها گام نهادیم. کار انجام شده از چندین مرحله تشکیل شده است. در مرحله اول از شبکه های عصبی پیچشی سه بعدی برای یادگیری ویژگی های طیفی زمانی گفتار استفاده شده است. در مرحله دوم برای قدرتمند کردن مدل پیشنهادی از معماری چند مقیاسه برای سیستم های بازشناسی احساس از روی گفتار است را مدل MSID 3DCNN نامیدیم. پژوهش انجام شده و مدل نهایی را روی ترکیب دو پایگاه داده گفتار معمولی و گفتار آوازی از پایگاه داده راودسی که یک پایگاه داده چند حالته است؛ انجام دادیم. متایجی که با استفاده از مدل پیشنهادی گرفتیم؛ نسبت به مدل های مرسوم، نتایج امیدوار کننده ای است. ما در این پژوهش برای شش کلاس احساسی به تفکیک جنسیت، به دفت 78/8 درصد رسیدیم.

Keywords:

بازشناسی احساسی از روی گفتار , شبکه های عصبی پیچشی سه بعدی , مدل چند مقایسه روی ابعاد ورودی , ویژگی های مدل طیفی زمانی , پایگاه داده راودیس

Authors

وحید احمدیان

دانشگاه صدا و سیمای جمهوری اسلامی ایران

معصومه شفیعیان

دانشگاه صدا و سیمای جمهوری اسلامی ایران

مجید بهداد

دانشگاه صدا و سیمای جمهوری اسلامی ایران