مقاوم سازی بازشناسی گفتار با استفاده از شبکه باور عمیق برای استخراج ویژگی توسعه یافته PNCC

محمد عسگری; مهران آقاگل زاده حاجی; سیده زهرا جلیل زاده

مقاوم سازی بازشناسی گفتار با استفاده از شبکه باور عمیق برای استخراج ویژگی توسعه یافته PNCC

Publish place: 15th Iran Media Technology Exhibition & Conference

Publish Year: 1397

نوع سند: مقاله کنفرانسی

زبان: Persian

This Paper With 10 Page And PDF and WORD Format Ready To Download

دریافت فایل کامل Paper

Certificate
من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

هوش مصنوعی > شبکه عصبی

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

https://civilica.com/doc/822334

شناسه ملی سند علمی:

MTEC15_007

تاریخ نمایه سازی: 6 بهمن 1397

Abstract:

هدف این از این مقاله، استفاده از ویژگی نوین PNCC ( ضرایب کپسترال نرمالیزه شده توان) در ترکیب با شبکه های عصبی عمیق جهت مقاوم سازی بازشناسی گفتار است که شبکه های عصبی عمیق به دو منظور پس پردازش روی ویژگی ها و مدل سازی آکوستیکی مورد استفاده قرار گرفته است. در بخش پس پردازش ویژگی ها از شبکه عصبی باور عمیق و نیز در بخش مدل سازی آکوستیکی از شبکه ی عصبی عمیق DNN استفاده شده است. روش مرجع برای مقایسه ی نتایج به دست آمده، استفاده از الگوریتم استخراج ویژگی MFCC ( ضرایب کپسترال مقیاس مل ) و مدل HMM-DNN با استفاده از ابزار Kaldi می باشد. در آزمایش-های انجام شده مشاهده شده است که به عنوان مثال برای نویز خیابان، استفاده از ویژگی PNCC نسبت به ویژگی MFCC به طور میانگین منجر به بهبود دقت بازشناسی واج حدود 5/8 درصد شده است. همچنین استفاده از شبکه ی باور عمیق به طور میانگین منجر به بهبود دقت بازشناسی واج حدود 94/2 درصد شده است و همچنین استفاده از شبکه ی باور عمیق در SNRهای پایین عملکرد بهتری داشته است.

Keywords:

مقاوم سازی , بازشناسی گفتار , استخراج ویژگی , شبکه عصبی باور عمیق , ویژگی PNCC

Authors

محمد عسگری

دانشکده صدا و سیمای جمهوری اسلامی ایران

مهران آقاگل زاده حاجی

دانشکده صدا و سیمای جمهوری اسلامی ایران

سیده زهرا جلیل زاده

سازمان صدا و سیما