تشخیص فعالیت انسان در تصاویر ثابت با استفاده از تکنیک های متراکم سازی دانش و انتقال توجه در شبکه های عصبی عمیق

معصومه, چاپاری نیا; سیدسجاد, اشرفی; شهریار, برادران شکوهی

تشخیص فعالیت انسان در تصاویر ثابت با استفاده از تکنیک های متراکم سازی دانش و انتقال توجه در شبکه های عصبی عمیق

عنوان مقاله: تشخیص فعالیت انسان در تصاویر ثابت با استفاده از تکنیک های متراکم سازی دانش و انتقال توجه در شبکه های عصبی عمیق
شناسه ملی مقاله: ITCT08_032
منتشر شده در هشتمین کنفرانس بین المللی فناوری اطلاعات، کامپیوتر و مخابرات در سال 1398

مشخصات نویسندگان مقاله:

معصومه چاپاری نیا - دانشجوی کارشناسی ارشد مهندسی برق، دانشگاه علم وصنعت ایران، تهران
سیدسجاد اشرفی - دانشجوی دکترای مهندسی برق، دانشگاه علم وصنعت ایران، تهران
شهریار برادران شکوهی - دانشیار مهندسی برق، دانشگاه علم وصنعت ایران، تهران

خلاصه مقاله:

اخیرا شبکه های عصبی کانولوشنی پیشرفت زیادی در طبقه بندی تصاویر داشته اند. اما تشخیص فعالیت انسان در تصاویر ثابت همچنان چالش برانگیز است، زیرا بر خلاف ویدئوها، دارای نشانه های حرکتی نیستند. در حال حاضر بیشتر رویکردهای مبتنی بر CNN برای تشخیص فعالیت انسان از تصاویر ثابت دارای هزینه ها و زمان محاسباتی بیش از حد با تعداد بیشماری پارامتر هستند. روشهای کارآمد اخیر مستقیما یک شبکه ی عمیق با تعداد لایه های زیاد را با استفاده از داده های کمکی مانند جعبه های محدود کننده ی انسان، جعبه های محدود کننده ی اشیاء، جعبه های محدود کننده ی بخشهای بدن انسان و غیره بر روی مجموعه ی داده ی فعالیت انسان در تصاویر ثابت آموزش میدهند. با این حال این روشها علاوه بر هزینه های لازم جهت ایجاد داده های کمکی از تصاویر، دارای تعداد زیادی پارامتر هستند و بنابراین برای کاربردهای دنیای واقعی همانند دستگاه های تلفن همراه و سایر دستگاه هایی که دارای منابع محاسباتی محدود هستند، مناسب نیستند. ما تکنیکهای فشرده سازی دانش و انتقال توجه از شبکه بزرگتر معلم به شبکه کوچکتر دانش آموز را معرفی میکنیم که میتواند عملکرد شبکه دانش آموز را برای تشخیص فعالیت انسان بدون افزایش پارامتر و هزینه های محاسباتی بهبود بخشد. علاوه بر این، برای جلوگیری از بیش برازش شبکه ها به دلیل کمبود داده های آموزشی برچسب خورده، روش انتقال یادگیری، یعنی استفاده از شبکه های کانولوشنی از پیش آموزش دادهشده روی مجموعه داده ی ImageNet، به کار برده میشود. نتایج آزمایشها نشان میدهد که با استفاده از این روش یک شبکه ی کوچک ResNet-18 قادر به گرفتن دانش و توجه یک شبکه ی بزرگ ResNet-34 خواهد بود، هر چندتکنیک انتقال توجه به کارآمدی فشرده سازی دانش نخواهد بود. در انتها ما یک شبکه Se-ResneXt، 50 لایه را با استفاده از یک شبکه ی عمیق Se-ResneXt، 101لایهی معلم روی مجموعه ی داده ی Stanford 40 به همراه هر دو تکنیک آموزش میدهیم و به میانگین دقت متوسط %92/08 میرسیم. در آخر مقایسه ی نتایج ما با کارهای دیگر نشان میدهد که ما توانسته ایم میانگین دقت متوسط شناسایی فعالیت انسان در تصاویر ثابت را بدون افزایش تعداد پارامترها و پیچیدگی شبکه ی پایه، بهبود ببخشیم.

کلمات کلیدی:

بینایی ماشین، یادگیری عمیق، تشخیص نوع فعالیت انسان، فشرده سازی دانش، انتقال توجه.

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1010122/