طبقه بندی صداهای محیطی یکی از چالش های مهم در حوزه پردازش سیگنال صوتی و یادگیری ماشین محسوب می شود. این پژوهش یک روش نوین مبتنی بر شبکه های عصبی کانولوشنی (CNN) را برای طبقه بندی صداهای محیطی ارائه می دهد که می تواند در سیستم های هوشمند،
سمعک های دیجیتال و سامانه های نظارتی صوتی مورد استفاده قرار گیرد. هدف اصلی این تحقیق، افزایش دقت مدل و کاهش پیچیدگی پردازش صوت با استفاده از روش های کاهش ابعاد و داده افزایی است. برای این منظور، از مجموعه داده UrbanSound۸K که شامل ۸۷۳۲ فایل صوتی در ده کلاس مختلف است، استفاده شده است. این کلاس ها شامل صداهایی مانند آژیر، بوق خودرو، صدای دریل، پارس سگ و موسیقی خیابانی هستند. برای استخراج ویژگی های صوتی، از ضرایب MFCC (Mel Frequency Cepstral Coefficients) استفاده شده است که اطلاعات فرکانسی مهم سیگنال را در قالب ۱۳ ویژگی اصلی استخراج می کند.برای بهبود عملکرد مدل و جلوگیری از بیش برازش (Overfitting)، از تکنیک های داده افزایی مانند افزودن نویز سفید، کشش زمانی و تغییر فرکانس استفاده شده است. همچنین، برای کاهش حجم داده ها و حفظ اطلاعات طبقه بندی شده، از دو روش کاهش ابعاد PCA و LDA بهره گرفته شد. سه معماری متفاوت از شبکه های CNN طراحی و با استفاده از الگوریتم Adam بهینه سازی شدند. هر معماری دارای تعداد لایه ها و تنظیمات مختلفی بود که تاثیر آن ها بر دقت مدل بررسی شد.نتایج ارزیابی نشان داد که مدل های ارائه شده دقت بالایی در طبقه بندی صداها دارند. معماری اول، دقت ۹۱.۹۳٪ داشت که پس از بازآموزی به ۹۲.۰۸٪ افزایش یافت. معماری دوم، با دقت ۹۸.۰۲٪، بالاترین عملکرد را ارائه کرد. معماری سوم، دقت اولیه ۹۳.۷۶٪ داشت که پس از بازآموزی به ۹۷.۴۰٪ رسید. همچنین، تحلیل نمودارهای دقت و زیان (Loss) نشان داد که مدل ها در طول آموزش به همگرایی مطلوبی رسیده اند و مقدار خطای طبقه بندی به طور پیوسته کاهش یافته است.علاوه بر این، با بررسی میزان تاثیر روش های کاهش ابعاد، مشخص شد که استفاده از PCA و LDA علاوه بر کاهش حجم داده ها، تاثیر مثبتی بر عملکرد مدل داشته است. همچنین، بررسی داده افزایی نشان داد که افزایش تنوع داده های آموزشی منجر به بهبود تعمیم پذیری مدل شده و دقت آن را افزایش داده است.این پژوهش نشان داد که ترکیب تکنیک های کاهش ابعاد، داده افزایی و بهینه سازی شبکه های عصبی، می تواند تاثیر قابل توجهی بر دقت و کارایی طبقه بندی صداهای محیطی داشته باشد. این مدل می تواند در کاربردهایی مانند بهبود عملکرد
سمعک های دیجیتال، سیستم های پردازش صوت در محیط های شهری و سامانه های نظارت هوشمند صوتی مورد استفاده قرار گیرد.