تشخیص سازهای موسیقیایی با استفاده از شبکه ی عصبی کانولوشن

Publish Year: 1399
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 339

This Paper With 25 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

CECCONF11_007

تاریخ نمایه سازی: 6 دی 1399

Abstract:

در علم شبکه هاي عصبی کانولووشن، علاوه بر تصویر، میتوانیم موسیقی را با عناوینی همچون گام موسیقی، کوك، سرعت قطعه و سازبندي تعریف کنیم و یا در ابعاد گسترده تر، به طور مثال بر اساس ژانر موسیقی و یا برچسب هایی که خورده است، آن را دسته بندي کنیم. با وجود اینکه انسان توانایی تشخیص مواردي همچون صفات و عناوین یک قطعه ي موسیقی را دارد، استنتاجعملکرد و مدل ها جهت تفاوت قائل شدن در سبک هاي موسیقی به منظور طبقه بندي آن، عملی چالش برانگیز میباشد. با این حال این موضوع، هدفی است که "بازیابی اطلاعات موسیقی "(MIR) Music Information Retrieval با آن درگیر است یکی از وظایف MIR، که در اینجا بررسی می شود، تشخیص سازهاي موسیقیایی یا شناسایی ساز Instrument Recognition - IR می باشد. در بیشتر موارد، ورودي براي سیستم هاي MIR، تنها شامل تعریف ابتدایی از صدا می باشد: یک شکل موجی دیجیتالی. به دلیل پیشرف تهاي اخیر در تکونولوژي، تعداد فراوانی صوت Audio به شکل دیجیتالی وجود دارد تا در سیستم شبکه هاي توزیع شده ذخیره شود. به طور همزمان، متدها و روش هاي یادگیري ماشین، توانایی خود را براي یادگیري و طبقه بندي داده هاي عظیم و بزرگ در مسیري همانند یادگیري انسان از طریق تجربه کردن، اثبات کرده اند. با ترکیب کردن این دو عنصر می توانیم دلیل افزایش پیوسته میزان صوت دیجیتالی را با تحلیل روش هاي یادگیري ماشین را پیدا کنیم تا به صورت خودکار، یک شکل موجی صوتی خاص را با صفات پرمحتواتري تعریف کنیم و بدون دانش قبلی، آن را تفسیر کنیم. تکنیک هاي یادگیري عمیق، که خود یک شکل خاص از یادگیري ماشین می باشد، به صورت خاص براي انجام دادن این امر مناسب می باشند زیرا این متدها قادر خواهد بود تا یک مدل سلسله مراتبی ایجاد کنند تا الگوهاي داده ها را همانند ساختار طبیعی و ذاتی سلسلهمرابی موسیقی تحلیل کند. در این مقاله سیستمی طراحی می کنیم تا سازهاي موسیقی را تشخیص دهد و سیستم تشخیص از طریق شبکه ي عصبی کانولووشن خواهد بود. بدین شکل که به کمک تبدیل فوریه، تبدیل کوتاه فوریه، طیف نگار و MFCC، فایل هاي صوتی موجود در دیتاست را می شنود و پس از آن، تشخیص میدهد که هر فایل صوتی متعلق به کدام کلاس از سازه ايتعریف شده می باشد

Authors

شایان دیانتی

دانشگاه آزاد اسلامی واحد تهران غرب

پیمان بابایی

دانشگاه آزاد اسلامی واحد تهران غرب