تشخیص فعالیت انسان در تصاویر ثابت با استفاده از تکنیک های متراکم سازی دانش و انتقال توجه در شبکه های عصبی عمیق

Publish Year: 1398
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 960

This Paper With 14 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

ITCT08_032

تاریخ نمایه سازی: 3 اردیبهشت 1399

Abstract:

اخیرا شبکه های عصبی کانولوشنی پیشرفت زیادی در طبقه بندی تصاویر داشته اند. اما تشخیص فعالیت انسان در تصاویر ثابت همچنان چالش برانگیز است، زیرا بر خلاف ویدئوها، دارای نشانه های حرکتی نیستند. در حال حاضر بیشتر رویکردهای مبتنی بر CNN برای تشخیص فعالیت انسان از تصاویر ثابت دارای هزینه ها و زمان محاسباتی بیش از حد با تعداد بیشماری پارامتر هستند. روشهای کارآمد اخیر مستقیما یک شبکه ی عمیق با تعداد لایه های زیاد را با استفاده از داده های کمکی مانند جعبه های محدود کننده ی انسان، جعبه های محدود کننده ی اشیاء، جعبه های محدود کننده ی بخشهای بدن انسان و غیره بر روی مجموعه ی داده ی فعالیت انسان در تصاویر ثابت آموزش میدهند. با این حال این روشها علاوه بر هزینه های لازم جهت ایجاد داده های کمکی از تصاویر، دارای تعداد زیادی پارامتر هستند و بنابراین برای کاربردهای دنیای واقعی همانند دستگاه های تلفن همراه و سایر دستگاه هایی که دارای منابع محاسباتی محدود هستند، مناسب نیستند. ما تکنیکهای فشرده سازی دانش و انتقال توجه از شبکه بزرگتر معلم به شبکه کوچکتر دانش آموز را معرفی میکنیم که میتواند عملکرد شبکه دانش آموز را برای تشخیص فعالیت انسان بدون افزایش پارامتر و هزینه های محاسباتی بهبود بخشد. علاوه بر این، برای جلوگیری از بیش برازش شبکه ها به دلیل کمبود داده های آموزشی برچسب خورده، روش انتقال یادگیری، یعنی استفاده از شبکه های کانولوشنی از پیش آموزش دادهشده روی مجموعه داده ی ImageNet، به کار برده میشود. نتایج آزمایشها نشان میدهد که با استفاده از این روش یک شبکه ی کوچک ResNet-18 قادر به گرفتن دانش و توجه یک شبکه ی بزرگ ResNet-34 خواهد بود، هر چندتکنیک انتقال توجه به کارآمدی فشرده سازی دانش نخواهد بود. در انتها ما یک شبکه Se-ResneXt، 50 لایه را با استفاده از یک شبکه ی عمیق Se-ResneXt، 101لایهی معلم روی مجموعه ی داده ی Stanford 40 به همراه هر دو تکنیک آموزش میدهیم و به میانگین دقت متوسط %92/08 میرسیم. در آخر مقایسه ی نتایج ما با کارهای دیگر نشان میدهد که ما توانسته ایم میانگین دقت متوسط شناسایی فعالیت انسان در تصاویر ثابت را بدون افزایش تعداد پارامترها و پیچیدگی شبکه ی پایه، بهبود ببخشیم.

Authors

معصومه چاپاری نیا

دانشجوی کارشناسی ارشد مهندسی برق، دانشگاه علم وصنعت ایران، تهران

سیدسجاد اشرفی

دانشجوی دکترای مهندسی برق، دانشگاه علم وصنعت ایران، تهران

شهریار برادران شکوهی

دانشیار مهندسی برق، دانشگاه علم وصنعت ایران، تهران