CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

تشخیص بصری گفتار با استفاده از تحلیل مکان-زمانی گرادیان

عنوان مقاله: تشخیص بصری گفتار با استفاده از تحلیل مکان-زمانی گرادیان
شناسه ملی مقاله: JR_TJEE-50-3_014
منتشر شده در در سال 1399
مشخصات نویسندگان مقاله:

علی جعفری شش پلی - پژوهشکده فضای مجازی - دانشگاه شهید بهشتی
علی نادیان قمشه - پژوهشکده فضای مجازی - دانشگاه شهید بهشتی

خلاصه مقاله:
استفاده از اطلاعات بینایی برای تشخیص گفتار، راه­کاری مهم در عدم حضور اطلاعات صوتی است. در این مقاله، روشی برای تشخیص گفتار به کمک اطلاعات بینایی با توصیف تغییرات مکانی-زمانی ناحیه لب ارائه‌شده است. برای توصیف تغییرات از گرادیان تصویر استفاده شد. در روش پیشنهادی، پس از تشخیص ناحیه لب و استخراج نقاط کلیدی، گرادیان در نواحی مربوط به نقاط کلیدی به‌عنوان اطلاعات مکانی مورداستفاده قرار گرفت. برای توصیف نواحی کلیدی لب در طول بیان یک عبارت، نمودار فراوانی 3 بعدی گرادیان­ها و تخمین مسیر تغییرات نواحی کلیدی در طول ویدیو استفاده شدند. تمرکز اصلی این تحقیق، ارائه توصیفی مناسب از گفتار است. به همین منظور، از دسته‌بندهای متفاوتی برای تشخیص گفتار به کمک ویژگی­های استخراج‌شده استفاده شد تا دسته­بند مناسب­تر مورد استفاده قرار گیرد. برای ارزیابی روش پیشنهادی از بانک داده MIRACL-VC1 استفاده شد و نتایج به دست آمده با روش‌های پیشین برای تشخیص گفتار مقایسه شدند. نتایج نشان داد روش پیشنهادی در حدود 11 تا 17 درصد بهبودی داشته است.

کلمات کلیدی:
تشخیص بصری گفتار, گرادیان زمانی و مکانی, تطبیق منحنی, ویژگی‌های ظاهری, ویژگی‌های حرکتی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1124064/