تشخیص بصری گفتار با استفاده از تحلیل مکان-زمانی گرادیان

Publish Year: 1399
نوع سند: مقاله ژورنالی
زبان: Persian
View: 290

This Paper With 14 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

JR_TJEE-50-3_014

تاریخ نمایه سازی: 4 آذر 1399

Abstract:

استفاده از اطلاعات بینایی برای تشخیص گفتار، راه­کاری مهم در عدم حضور اطلاعات صوتی است. در این مقاله، روشی برای تشخیص گفتار به کمک اطلاعات بینایی با توصیف تغییرات مکانی-زمانی ناحیه لب ارائه‌شده است. برای توصیف تغییرات از گرادیان تصویر استفاده شد. در روش پیشنهادی، پس از تشخیص ناحیه لب و استخراج نقاط کلیدی، گرادیان در نواحی مربوط به نقاط کلیدی به‌عنوان اطلاعات مکانی مورداستفاده قرار گرفت. برای توصیف نواحی کلیدی لب در طول بیان یک عبارت، نمودار فراوانی 3 بعدی گرادیان­ها و تخمین مسیر تغییرات نواحی کلیدی در طول ویدیو استفاده شدند. تمرکز اصلی این تحقیق، ارائه توصیفی مناسب از گفتار است. به همین منظور، از دسته‌بندهای متفاوتی برای تشخیص گفتار به کمک ویژگی­های استخراج‌شده استفاده شد تا دسته­بند مناسب­تر مورد استفاده قرار گیرد. برای ارزیابی روش پیشنهادی از بانک داده MIRACL-VC1 استفاده شد و نتایج به دست آمده با روش‌های پیشین برای تشخیص گفتار مقایسه شدند. نتایج نشان داد روش پیشنهادی در حدود 11 تا 17 درصد بهبودی داشته است.

Authors

علی جعفری شش پلی

پژوهشکده فضای مجازی - دانشگاه شهید بهشتی

علی نادیان قمشه

پژوهشکده فضای مجازی - دانشگاه شهید بهشتی

مراجع و منابع این Paper:

لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :
  • [1]      A. Rekik, A. Ben-Hamadou and W. Mahdi, “An adaptive ...
  • [2]      I. Matthews, T. F. Cootes, J. A. Bangham, S. ...
  • [3]      K. Paleček, “Lipreading using spatiotemporal histogram of oriented gradients.” ...
  • [4]      J. Shin, J. Lee and D. Kim, “Real-time lip ...
  • [5]      G. Sterpu and N. Harte, “Towards lipreading sentences with ...
  • [6]      H. L. Bear, S. J. Cox and R. W. ...
  • [7]      P. Dalka, P. Bratoszewski and A. Czyzewski, “Visual lip ...
  • [8]      X. Ma, L. Yan and Q. Zhong, “Lip feature ...
  • [9]      F. Faridah and B. Achmad, “Lip image feature extraction ...
  • [10]      نصیبه اسدی‌پرور ماسوله و اسدالله شاه‌بهرامی, «تخمین خودکار سن ...
  • [11]      Y. Pei, T.-K. Kim and H. Zha, “Unsupervised random ...
  • [12]      A. Jain and G. Rathna, “Visual speech recognition for ...
  • [13]      L. D. Terissi, M. Parodi, and J. C. Gómez, ...
  • [14]      S. S. Morade and S. Patnaik, “Lip reading by ...
  • [15]      S. S. Morade and S. Patnaik, “Lip reading using ...
  • [16]      سانازکشوری و عبدالله چاله‌چاله, «طبقه‌بندی سبک نقاشی هنرمندان با ...
  • [17]      منیره کوشش و غلامرضا اکبری‌زاده, «الگوریتم حذف Speckle با ...
  • [18]      G. Zhao, M. Barnard and M. Pietikainen, “Lipreading with ...
  • [19]      W. C. Yau, D. K. Kumar and S. P. ...
  • [20]      A. Rekik, A. Ben-Hamadou and W. Mahdi, “A new ...
  • [21]      A. Klaser, M. Marszałek and C. Schmid, “A spatio-temporal ...
  • [22]      P. Viola and M. J. Jones, “Robust real-time face ...
  • [23]      A. Asthana, S. Zafeiriou, S. Cheng and M. Pantic, ...
  • [24]      J. Fan, Local Polynomial Modelling and its Applications: Monographs ...
  • نمایش کامل مراجع