پردازش تصویر با استفاده از شبکه های عصبی

22 بهمن 1402 - خواندن 3 دقیقه - 283 بازدید

شبکه های عصبی کانولوشنال (CNN) اخیرا به یکی از جذاب ترین رویکردها تبدیل شده است و عامل نهایی در انواع موفقیت های اخیر و برنامه های چالش برانگیز مرتبط با برنامه های یادگیری ماشینی مانند تشخیص شی ImageNet، طبقه بندی تصویر و تشخیص چهره بوده است. بنابراین، ما CNN را به عنوان مدل خود برای در طبقه بندی تصاویر در نظر می گیریم. از CNN برای تقسیم بندی و طبقه بندی تصاویر در تراکنش های دانشگاهی و تجاری استفاده می کنیم. از تشخیص تصویر در زمینه های مختلف مانند سازماندهی خودکار تصویر، عکاسی استوک، تشخیص چهره و بسیاری کارهای مرتبط دیگر استفاده می کنیم.

الف) پایگاه داده CIFAR-10

پایگاه داده CIFAR-10 (پایگاه داده موسسه تحقیقات پیشرفته کانادا) مجموعه ای از تصاویر است. از این مجموعه داده برای آموزش الگوریتم های یادگیری ماشین و بینایی کامپیوتر استفاده می کنیم. پایگاه داده CIFAR-10 محصول مشترک الکس کریژفسکی و جفری هینتون است. این مجموعه داده دارای 60000 تصویر رنگی است که ده کلاس دارد و آنها هواپیما، اتومبیل، پرنده، گربه، آهو، سگ، قورباغه، اسب، کشتی، کامیون هستند. اندازه تصاویر 32×32 پیکسل می باشد. مجموعه داده شامل 50000 نمونه آموزشی و 10000 نمونه آزمایشی است. این یک پایگاه داده برای افرادی است که می خواهند تکنیک های یادگیری و روش های تشخیص الگو را روی داده های دنیای واقعی امتحان کنند و در عین حال حداقل تلاش خود را برای پیش پردازش و قالب بندی صرف کنند.

ب) شبکه های عصبی کانولوشن

شبکه های عصبی کانولوشن شبکه های عصبی مصنوعی عمیق هستند. از CNN برای طبقه بندی تصاویر، خوشه بندی آن ها بر اساس شباهت (جستجوی عکس) و تشخیص شی در صحنه ها استفاده می کنیم. می توان از آن برای شناسایی چهره ها، افراد، علائم خیابان، تومورها، پلاتیپوس ها و بسیاری از جنبه های دیگر داده های بصری استفاده کرد. لایه کانولوشن بلوک اصلی یک CNN است. پارامترهای لایه شامل مجموعه ای از فیلترها (یا هسته های) قابل یادگیری است که دارای یک میدان پذیرنده کوچک هستند اما در تمام عمق حجم ورودی گسترش می یابند. در طول عبور رو به جلو، هر فیلتر در عرض و ارتفاع حجم ورودی پیچیده می شود، محصول نقطه ای را محاسبه می کند و نقشه فعال سازی دو بعدی آن فیلتر را تولید می کند. در نتیجه، شبکه در مورد فیلترها یاد می گیرد. فیلتر وقتی فعال می شود که نوع خاصی از ویژگی را در موقعیت مکانی در ورودی ببینند. سپس نقشه های فعال سازی به یک لایه نمونه برداری کوچک وارد می شوند و مانند کانولوشن ها، این روش هر بار یک پچ اعمال می شود. CNN همچنین دارای یک لایه کاملا متصل است که خروجی را با یک برچسب در هر گره طبقه بندی می کند.

پردازش تصویرشبکه های عصبیشبکه های عصبی کانوولوشنال