دسته بندی رویدادهای صوتی با استفاده از ویژگی های MFCC و معماری ResNet-50

Publish Year: 1398
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 493

This Paper With 9 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

CEPS06_196

تاریخ نمایه سازی: 9 اردیبهشت 1399

Abstract:

از یک دیدگاه، هدف آشکارسازی رویداد صوتی برچسب گذاری محدوده های زمانی یک صدای ضبط شده است که یک توصیف نمادین را نتیجه می دهد و هر توصیف، زمان شروع، زمان پایان و یک برچسب برای نمونه واحد از یک اتفاق خاص را نشان می دهد. این تعریف، به رونویسی موزیک و هم چنین شناسایی گوینده مربوط می شود که به طور مشابه یک نشانه گذاری ساختاری از قطعه های زمانی را پوشش می دهد، و بیشتر بر تبدیلات گفتار تمرکز دارد تا رویدادهای منفرد صوتی. هدف از انجام این پژوهش انجام دسته بندی رویدادهای صوتی با استفاده از ویژگی های MFCC و معماری ResNet-50 بوده است. نتایج حاصل از پژوهش نشان می دهد که بهترین شبکه های عصبی در حوزه تصویر می توانند نتایجی عالی در طبقه بندی صوت نیز به دست آورند. هم چنین می توان گفت تغییر در مقدار نرخ یادگیری می تواند منجر به بهبود فرایند آموزش شود.

Authors

سینا غفرانی ماجلان

گروه سیستم های الکترونیک دیجیتال، دانشکده مهندسی برق، دانشگاه علم و صنعت، تهران، ایران

علی بحری

گروه سیستم های الکترونیک دیجیتال، دانشکده مهندسی برق، دانشگاه علم و صنعت، تهران، ایران