تشخیص بصری گفتار با استفاده از تحلیل مکان-زمانی گرادیان
Publish place: Tabriz Journal of Electrical Engineering، Vol: 50، Issue: 3
Publish Year: 1399
نوع سند: مقاله ژورنالی
زبان: Persian
View: 290
This Paper With 14 Page And PDF Format Ready To Download
- Certificate
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
JR_TJEE-50-3_014
تاریخ نمایه سازی: 4 آذر 1399
Abstract:
استفاده از اطلاعات بینایی برای تشخیص گفتار، راهکاری مهم در عدم حضور اطلاعات صوتی است. در این مقاله، روشی برای تشخیص گفتار به کمک اطلاعات بینایی با توصیف تغییرات مکانی-زمانی ناحیه لب ارائهشده است. برای توصیف تغییرات از گرادیان تصویر استفاده شد. در روش پیشنهادی، پس از تشخیص ناحیه لب و استخراج نقاط کلیدی، گرادیان در نواحی مربوط به نقاط کلیدی بهعنوان اطلاعات مکانی مورداستفاده قرار گرفت. برای توصیف نواحی کلیدی لب در طول بیان یک عبارت، نمودار فراوانی 3 بعدی گرادیانها و تخمین مسیر تغییرات نواحی کلیدی در طول ویدیو استفاده شدند. تمرکز اصلی این تحقیق، ارائه توصیفی مناسب از گفتار است. به همین منظور، از دستهبندهای متفاوتی برای تشخیص گفتار به کمک ویژگیهای استخراجشده استفاده شد تا دستهبند مناسبتر مورد استفاده قرار گیرد. برای ارزیابی روش پیشنهادی از بانک داده MIRACL-VC1 استفاده شد و نتایج به دست آمده با روشهای پیشین برای تشخیص گفتار مقایسه شدند. نتایج نشان داد روش پیشنهادی در حدود 11 تا 17 درصد بهبودی داشته است.
Keywords:
Authors
علی جعفری شش پلی
پژوهشکده فضای مجازی - دانشگاه شهید بهشتی
علی نادیان قمشه
پژوهشکده فضای مجازی - دانشگاه شهید بهشتی
مراجع و منابع این Paper:
لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :