طراحی یک روش آموزش ناموازی جدید برای تبدیل گفتار با عملکردی بهتر از آموزش موازی

مصطفی قرباندوست; ولی اله صبا

طراحی یک روش آموزش ناموازی جدید برای تبدیل گفتار با عملکردی بهتر از آموزش موازی

Publish place: Paramedical Sciences and Military Health، Vol: 10، Issue: 2

Publish Year: 1394

نوع سند: مقاله ژورنالی

زبان: Persian

This Paper With 11 Page And PDF Format Ready To Download

دریافت فایل کامل Paper

Certificate
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

https://civilica.com/doc/1412736

شناسه ملی سند علمی:

JR_JPSMH-10-2_002

تاریخ نمایه سازی: 17 اسفند 1400

Abstract:

مقدمه: هنر تقلید صدای انسان با کامپیوتر، یکی از چالشی ترین موضوعات پردازش گفتار در سال های اخیر بوده است. یک سیستم تبدیل گفتار دارای دو سمت است. در یک سمت آن، گوینده مبدا قرار دارد که صدایش برای تقلید صدای گوینده هدف (که در سمت دیگر سیستم قرار دارد) تغییر داده می شود. برای تبدیل گفتار فرد مبدا به فرد هدف از دو روش موازی و ناموازی استفاده می شود. در روش موازی گوینده مبدا و هدف جملات یکسانی بیان کرده و در روش ناموازی جملات متفاوتی بیان می کنند. بیشتر محققین تبدیل گفتار برای آموزش تابع تبدیل از دادگان آموزشی موازی استفاده کرده اند. با این حال، در عمل همیشه امکان جمع آوری دادگان موازی وجود ندارد و بنابراین نیاز استفاده از روش های ناموازی به وجود می آید. مواد و روش ها: گفتار گوینده مبدا و هدف ضبط شده و سپس مورد آنالیز قرار گرفت. با پردازش سیگنال، ویژگی های گفتار هر دو نفر استخراج شد. سپس عمل هم ردیف سازی انجام شده و تابع تبدیل گفتار بدست آمد. برای تبدیل گفتار مبدا به هدف، گفتار مبدا آنالیز شده و سپس عمل استخراج ویژگی انجام شد. تابع نبدیل گفتار بدست آمده از قسمت قبل، بر ویژگیهای استخراج شده اعمال شد. سپس عمل معکوس استخراج ویژگی انجام شده و در پایان سنتز گفتار صورت گرفت. صدای سنتز شده، صدای فرد هدف می باشد. یافته ها: نتایج آزمایش های عددی و عینی مشخص کرد که روش پیشنهادی ما از روش آموزش موازی بهتر است. همچنین در آزمایش ها مشاهده شد که این برتری هم از لحاظ کیفیت و هم از لحاظ شباهت به گوینده ی هدف، برای اندازه های مختلف دادگان آموزشی از پنج تا چهل جمله صادق است. بحث و نتیجه گیری: به نظر می رسد که روش پیشنهادی ما یک رقیب جدی برای روش های آموزش موازی برای همردیف سازی فریم است.

Keywords:

Voice conversion , Speech analysissynthesis , Non-parallel training system , INCA algorithm , Gaussian Mixture Model (GMM) , Universal Background Model (UBM) , Realtime voice conversion , تبدیل گفتار , آنالیز و سنتز صدا , سیستم های آموزش ناموازی , الگوریتم INCA , مدل مخلوط گاوسی , مدل پس زمینه سراسری , تبدیل گفتار بلادرنگ

Authors

مصطفی قرباندوست

دانشگاه علوم پزشکی آجا

ولی اله صبا

دانشگاه علوم پزشکی آجا