بررسی روش های تطبیق به گوینده مبتنی بر فضای ویژه در سیستم های بازشناسی گفتار فارسی

زهره انصاری; فرشاد الماس گنج; یاسر شکفته

بررسی روش های تطبیق به گوینده مبتنی بر فضای ویژه در سیستم های بازشناسی گفتار فارسی

Publish place: 17th Iranian Conference on Biomedical Engineering

Publish Year: 1389

نوع سند: مقاله کنفرانسی

زبان: Persian

This Paper With 6 Page And PDF Format Ready To Download

دریافت فایل کامل Paper

Certificate
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

https://civilica.com/doc/202958

شناسه ملی سند علمی:

ICBME17_139

تاریخ نمایه سازی: 9 تیر 1392

Abstract:

از میان الگوریتم های تطبیق به گوینده، تطبیق صدای ویژه (EV) و تطبیق ILIR بر پایه فضای ویژه (EMLLR) به منظور تطبیق به گوینده سریع (با داده تطبیقی کم) مورد استفاده قرار گرفته اند. در این دوالگوریتم، مدل تطبیق یافته به گوینده جدید محدود به تعریف شدن به صورت جمع وزندار بردارهای پایه ای که بر یکدیگر عمودند می شود، به این ترتیب تعداد پارامترهایی که لازم است از داده تطبیقی تخمین زده شوند کاهش می یابد. در این حالت، دست یابی به مدل های دقیق تر با استفاده از داده تطبیقی بیشتر سخت می شود که می توان با استفاده از دسته بندی بهینه پارامترهای مدل این مشکل را برطرف ساخت. نتایج بررسظی های انجام گرفته در این مطالعه روی به کارگیری دو روش EV و EMLLR با استفاده از دادگان فارس دات نشان می دهد که با داشتن داده تطبیقی کوتاه (در حد 5 الی 10 ثانیه)، در حالت سرپرستی شده، هر یک به ترتیب 5/9% و 5/3% و در حالت بدون سرپرستی، 4/6% و 4% بازشناسی واج را بهبود می بخشند در حالی که روش های تطبیق به گوینده متداول نظیر MLLR نمی توانند با داده تطبیقی ک وتاه به درستی عمل کنند. همچنین نشان داده شده است که با استفاده از خوشه بندی فضای ویژه، عملکرد تطبیق EV با داده تطبیقی زیاد در دو حالت سرپرستی شده و بدون سرپرستی بهبود می یابد.

Keywords:

آنالیز مؤلفه های اساسی , تطبیق به گوینده , صدای ویژه , فضای ویژه

Authors

زهره انصاری

دانشگاه صنعتی امیرکبیر (پلی تکنیک تهران)، دانشکده مهندسی پزشکی، آزما

فرشاد الماس گنج

دانشگاه صنعتی امیرکبیر (پلی تکنیک تهران)، دانشکده مهندسی پزشکی، آزما

یاسر شکفته

دانشگاه صنعتی امیرکبیر (پلی تکنیک تهران)، دانشکده مهندسی پزشکی، آزما

مراجع و منابع این Paper:

لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :

کلی40 39x درجه آزادی در اختیار دارد. همان‌طور که در ...
A. Xuedog Hung and B. Hon Acero, Spoken Language Processing, ...
_ _ _ study on speaker pp. 806-814, 1991. ...
A. C.J. Leggetter and B. P.C. Woodland "Maximum likelihood ...
A. R. Kuhn and B. J.C. Junqua, "Rapid speaker adaptation ...
_ _ adaptation using eigenspace-b ased maximum likelihood linear regression, ...
_ _ _ _ _ eigenspace for improved speaker adaptation" ...
I. T. Jolliffe, Principual Component Analysis. Sprin ger-Verlag, 1986. ...
A. N.J.-C. Wang and B. S.S.-M. Lee, "Rapid speaker adaptation ...
Roger Hsiao Wend Huu, "Kernel eigenspace based MLLR adaptation" Thesis ...

نمایش کامل مراجع