طبقه بندی صداهای محیطی با شبکه های عصبی کانولوشنی (CNN) و کاهش ابعاد

محمد قنبری صباغ; مهرزاد ابراهیمی طاری

طبقه بندی صداهای محیطی با شبکه های عصبی کانولوشنی (CNN) و کاهش ابعاد

Publish place: 25th National Conference on Electrical, Computer and Mechanical Engineering

Publish Year: 1403

Type: Conference paper

Language: Persian

This Paper With 22 Page And PDF Format Ready To Download

DOWNLOAD Paper

Certificate
I'm the author of the paper

Export:

Link to this Paper:

https://civilica.com/doc/2198659

Document National Code:

ECME25_042

Index date: 11 March 2025

طبقه بندی صداهای محیطی با شبکه های عصبی کانولوشنی (CNN) و کاهش ابعاد abstract

طبقه بندی صداهای محیطی یکی از چالش های مهم در حوزه پردازش سیگنال صوتی و یادگیری ماشین محسوب می شود. این پژوهش یک روش نوین مبتنی بر شبکه های عصبی کانولوشنی (CNN) را برای طبقه بندی صداهای محیطی ارائه می دهد که می تواند در سیستم های هوشمند، سمعک های دیجیتال و سامانه های نظارتی صوتی مورد استفاده قرار گیرد. هدف اصلی این تحقیق، افزایش دقت مدل و کاهش پیچیدگی پردازش صوت با استفاده از روش های کاهش ابعاد و داده افزایی است. برای این منظور، از مجموعه داده UrbanSound۸K که شامل ۸۷۳۲ فایل صوتی در ده کلاس مختلف است، استفاده شده است. این کلاس ها شامل صداهایی مانند آژیر، بوق خودرو، صدای دریل، پارس سگ و موسیقی خیابانی هستند. برای استخراج ویژگی های صوتی، از ضرایب MFCC (Mel Frequency Cepstral Coefficients) استفاده شده است که اطلاعات فرکانسی مهم سیگنال را در قالب ۱۳ ویژگی اصلی استخراج می کند.برای بهبود عملکرد مدل و جلوگیری از بیش برازش (Overfitting)، از تکنیک های داده افزایی مانند افزودن نویز سفید، کشش زمانی و تغییر فرکانس استفاده شده است. همچنین، برای کاهش حجم داده ها و حفظ اطلاعات طبقه بندی شده، از دو روش کاهش ابعاد PCA و LDA بهره گرفته شد. سه معماری متفاوت از شبکه های CNN طراحی و با استفاده از الگوریتم Adam بهینه سازی شدند. هر معماری دارای تعداد لایه ها و تنظیمات مختلفی بود که تاثیر آن ها بر دقت مدل بررسی شد.نتایج ارزیابی نشان داد که مدل های ارائه شده دقت بالایی در طبقه بندی صداها دارند. معماری اول، دقت ۹۱.۹۳٪ داشت که پس از بازآموزی به ۹۲.۰۸٪ افزایش یافت. معماری دوم، با دقت ۹۸.۰۲٪، بالاترین عملکرد را ارائه کرد. معماری سوم، دقت اولیه ۹۳.۷۶٪ داشت که پس از بازآموزی به ۹۷.۴۰٪ رسید. همچنین، تحلیل نمودارهای دقت و زیان (Loss) نشان داد که مدل ها در طول آموزش به همگرایی مطلوبی رسیده اند و مقدار خطای طبقه بندی به طور پیوسته کاهش یافته است.علاوه بر این، با بررسی میزان تاثیر روش های کاهش ابعاد، مشخص شد که استفاده از PCA و LDA علاوه بر کاهش حجم داده ها، تاثیر مثبتی بر عملکرد مدل داشته است. همچنین، بررسی داده افزایی نشان داد که افزایش تنوع داده های آموزشی منجر به بهبود تعمیم پذیری مدل شده و دقت آن را افزایش داده است.این پژوهش نشان داد که ترکیب تکنیک های کاهش ابعاد، داده افزایی و بهینه سازی شبکه های عصبی، می تواند تاثیر قابل توجهی بر دقت و کارایی طبقه بندی صداهای محیطی داشته باشد. این مدل می تواند در کاربردهایی مانند بهبود عملکرد سمعک های دیجیتال، سیستم های پردازش صوت در محیط های شهری و سامانه های نظارت هوشمند صوتی مورد استفاده قرار گیرد.

طبقه بندی صداهای محیطی با شبکه های عصبی کانولوشنی (CNN) و کاهش ابعاد Keywords:

طبقه بندی صداهای محیطی , سمعک , شبکه های عصبی کانولوشنی (CNN) , هوش مصنوعی , پردازش سیگنال های صوتی

طبقه بندی صداهای محیطی با شبکه های عصبی کانولوشنی (CNN) و کاهش ابعاد authors

محمد قنبری صباغ

دکتر(عضو هیئت علمی دانشکده هوش مصنوعی و فناوری های اجتماعی و پیشرفته، دانشگاه آزاد اسلامی واحد تهران شمال)

مهرزاد ابراهیمی طاری

کارشناسی ارشد (مهندسی پزشکی-گرایش بیوالکتریک، دانشگاه آزاد اسلامی واحد تهران شمال)