تشخیص بصری گفتار با استفاده از تحلیل مکان-زمانی گرادیان
عنوان مقاله: تشخیص بصری گفتار با استفاده از تحلیل مکان-زمانی گرادیان
شناسه ملی مقاله: JR_TJEE-50-3_014
منتشر شده در در سال 1399
شناسه ملی مقاله: JR_TJEE-50-3_014
منتشر شده در در سال 1399
مشخصات نویسندگان مقاله:
علی جعفری شش پلی - پژوهشکده فضای مجازی - دانشگاه شهید بهشتی
علی نادیان قمشه - پژوهشکده فضای مجازی - دانشگاه شهید بهشتی
خلاصه مقاله:
علی جعفری شش پلی - پژوهشکده فضای مجازی - دانشگاه شهید بهشتی
علی نادیان قمشه - پژوهشکده فضای مجازی - دانشگاه شهید بهشتی
استفاده از اطلاعات بینایی برای تشخیص گفتار، راهکاری مهم در عدم حضور اطلاعات صوتی است. در این مقاله، روشی برای تشخیص گفتار به کمک اطلاعات بینایی با توصیف تغییرات مکانی-زمانی ناحیه لب ارائهشده است. برای توصیف تغییرات از گرادیان تصویر استفاده شد. در روش پیشنهادی، پس از تشخیص ناحیه لب و استخراج نقاط کلیدی، گرادیان در نواحی مربوط به نقاط کلیدی بهعنوان اطلاعات مکانی مورداستفاده قرار گرفت. برای توصیف نواحی کلیدی لب در طول بیان یک عبارت، نمودار فراوانی 3 بعدی گرادیانها و تخمین مسیر تغییرات نواحی کلیدی در طول ویدیو استفاده شدند. تمرکز اصلی این تحقیق، ارائه توصیفی مناسب از گفتار است. به همین منظور، از دستهبندهای متفاوتی برای تشخیص گفتار به کمک ویژگیهای استخراجشده استفاده شد تا دستهبند مناسبتر مورد استفاده قرار گیرد. برای ارزیابی روش پیشنهادی از بانک داده MIRACL-VC1 استفاده شد و نتایج به دست آمده با روشهای پیشین برای تشخیص گفتار مقایسه شدند. نتایج نشان داد روش پیشنهادی در حدود 11 تا 17 درصد بهبودی داشته است.
کلمات کلیدی: تشخیص بصری گفتار, گرادیان زمانی و مکانی, تطبیق منحنی, ویژگیهای ظاهری, ویژگیهای حرکتی
صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1124064/