مقاوم سازی بازشناسی گفتار با استفاده از شبکه باور عمیق برای استخراج ویژگی توسعه یافته PNCC

Publish Year: 1397
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 652

This Paper With 10 Page And PDF and WORD Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

MTEC15_007

تاریخ نمایه سازی: 6 بهمن 1397

Abstract:

هدف این از این مقاله، استفاده از ویژگی نوین PNCC ( ضرایب کپسترال نرمالیزه شده توان) در ترکیب با شبکه های عصبی عمیق جهت مقاوم سازی بازشناسی گفتار است که شبکه های عصبی عمیق به دو منظور پس پردازش روی ویژگی ها و مدل سازی آکوستیکی مورد استفاده قرار گرفته است. در بخش پس پردازش ویژگی ها از شبکه عصبی باور عمیق و نیز در بخش مدل سازی آکوستیکی از شبکه ی عصبی عمیق DNN استفاده شده است. روش مرجع برای مقایسه ی نتایج به دست آمده، استفاده از الگوریتم استخراج ویژگی MFCC ( ضرایب کپسترال مقیاس مل ) و مدل HMM-DNN با استفاده از ابزار Kaldi می باشد. در آزمایش-های انجام شده مشاهده شده است که به عنوان مثال برای نویز خیابان، استفاده از ویژگی PNCC نسبت به ویژگی MFCC به طور میانگین منجر به بهبود دقت بازشناسی واج حدود 5/8 درصد شده است. همچنین استفاده از شبکه ی باور عمیق به طور میانگین منجر به بهبود دقت بازشناسی واج حدود 94/2 درصد شده است و همچنین استفاده از شبکه ی باور عمیق در SNRهای پایین عملکرد بهتری داشته است.

Authors

محمد عسگری

دانشکده صدا و سیمای جمهوری اسلامی ایران

مهران آقاگل زاده حاجی

دانشکده صدا و سیمای جمهوری اسلامی ایران

سیده زهرا جلیل زاده

سازمان صدا و سیما