تشخیص خودکار گوینده مبتنی بر ویژگی های استخراج شده از بانک فیلتر گابور و شبکه های عصبی کانولوشنال
Publish place: Journal Of Modeling in Engineering، Vol: 21، Issue: 72
Publish Year: 1402
نوع سند: مقاله ژورنالی
زبان: Persian
View: 106
This Paper With 19 Page And PDF Format Ready To Download
- Certificate
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
JR_JME-21-72_004
تاریخ نمایه سازی: 14 تیر 1402
Abstract:
صدای یک انسان حاوی خصوصیاتی از قبیل: قومیت، جنسیت، احساس، سن و اطلاعات دیگری از فرد است و موضوع تشخیص گوینده به شناسایی هویت افراد بر اساس صدای آنها می پردازد. اگرچه محققان در طول سال های گذشته در این زمینه فعالیت داشته اند و روش هایی برای بهبود دقت تشخیص گوینده پیشنهاد داده اند اما هنوز چالش هایی در این زمینه وجود دارد. در این مقاله یک روش جدید تشخیص گوینده مبتنی بر فیلترهای گابور و شبکه های عصبی کانولوشنال ارایه شده است. در روش پیشنهادی، ابتدا اسپکتروگرام سیگنال صحبت فرد تشکیل می شود. سپس با طراحی موثر فیلترهای گابور، بانک فیلتر گابور ایجاد می گردد. در مرحله ی بعد اسپکتروگرام سیگنال از بانک فیلتر گابور عبور داده شده و ویژگی های سیگنال صحبت استخراج می شود. در مرحله ی آخر با استفاده از یک شبکه ی عصبی کانولوشنال، گوینده شناسایی می شود. برای ارزیابی روش پیشنهادی از دو پایگاه داده ی Aurora۲ و TIMIT استفاده شده است. نتایج نشان می دهد که روش پیشنهادی دقت بهتری نسبت به روش های پیشین دارد.
Keywords:
Authors
عبدالرضا رشنو
گروه مهندسی کامپیوتر، دانشکده مهندسی، دانشگاه لرستان، خرم آباد، ایران
صادق فدایی
گروه مهندسی برق، دانشکده فنی و مهندسی ، دانشگاه یاسوج، یاسوج، ایران
عبدالصمد حمیدی
گروه مهندسی برق، دانشکده مهندسی، دانشگاه لرستان، خرم آباد، ایران
مراجع و منابع این Paper:
لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :