سیویلیکا را در شبکه های اجتماعی دنبال نمایید.

ارائه یک معماری یادگیری عمیق برای شناسایی اعمال انسان در ویدئو

Publish Year: 1398
Type: Conference paper
Language: Persian
View: 1,208

This Paper With 6 Page And PDF and WORD Format Ready To Download

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

Export:

Link to this Paper:

Document National Code:

SPIS05_013

Index date: 27 January 2020

ارائه یک معماری یادگیری عمیق برای شناسایی اعمال انسان در ویدئو abstract

شناسایی اعمال انسان در ویدئو با توجه به کاربردهای بسیاری که در زمینه های مختلف از جمله امنیت، سلامت، مدیریت هوشمند شهر و ساختمان و ... دارد، طی چند سال اخیر توجه زیادی را به خود جلب کرده است. از سوی دیگر، رویکردهای یادگیری عمیق مانند شبکه های عصبی پیچشی (CNN ها) و شبکه های عصبی بازگشتی (RNN ها) در زمینه های مختلف توانسته اند نتایج بسیار خوبی را کسب کنند. با این وجود، علی رغم تغییرات زمانی قابل توجه در محتوای ویدئو، تاکنون شبکه های عصبی بازگشتی در شناسایی اعمال انسان ضعیف تر از روش های مبتنی بر شبکه های پیچشی عمل کرده اند. در این پژوهش با معرفی یک رویکرد سلسله مراتبی زمانی در دو سطح محلی و سراسری، با استفاده از شبکه های پیچشی متورم دو جریانی که از شبکه های عصبی پیچشی دو بعدی معروف برای دسته بندی تصاویر ایجاد شده اند و همچنین استفاده از پشته ای از لایه های واحدهای بازگشتی گیت دار (GRU) توانسته ایم رویکردی جدید برای شناسایی اعمال انسان در ویدئو ارائه دهیم. در این رویکرد ابتدا ویژگی های فضایی-زمانی را برای هر دو جریان فضایی و زمانی به صورت محلی با استفاده از شبکه های پیچشی سه بعدی متورم (I3D) فضایی و زمانی استخراج می کنیم که این کار باعث تبدیل دنباله طولانی قاب های یک ویدئو به یک دنباله کوتاه تر و حاوی اطلاعات مفیدتر می شود. این دنباله کوتاه شده را به شبکه ای از GRU ها می دهیم و در نهایت نیز نتایج دو جریان را تجمیع می کنیم. برای تجمیع نتایج، یک لایه جدید با نام میانگین وزن دهی شده را معرفی می کنیم که اهمیت هر جریان را در فرایند آموزش به صورت خودکار فرا می گیرد. ارزیابی ها نشان دهنده نتایجی قابل قبول برای دو مجموعه داده HMDB51 و UCF101 هستند. روش پیشنهادی موجب 1.6 درصد بهبود در صحت دسته بندی نمونه های مجموعه داده پرچالش HMDB51 نسبت به نتایج گزارش شده بهترین روش موجود گردیده است.

ارائه یک معماری یادگیری عمیق برای شناسایی اعمال انسان در ویدئو Keywords:

شبکه های عصبی پیچشی متورم , واحد بازگشتی گیت دار , شناسایی اعمال , معماری دو جریانی.

ارائه یک معماری یادگیری عمیق برای شناسایی اعمال انسان در ویدئو authors

مهدی سوادی حسینی

دانشجو کارشناسی ارشد، دانشگاه تربیت مدرس،

فواد قادری

استادیار دانشکده مهندسی برق و کامپیوتر، آزمایشگاه تعامل انسان و کامپیوتر، دانشگاه تربیت مدرس،

مقاله فارسی "ارائه یک معماری یادگیری عمیق برای شناسایی اعمال انسان در ویدئو" توسط مهدی سوادی حسینی، دانشجو کارشناسی ارشد، دانشگاه تربیت مدرس،؛ فواد قادری، استادیار دانشکده مهندسی برق و کامپیوتر، آزمایشگاه تعامل انسان و کامپیوتر، دانشگاه تربیت مدرس، نوشته شده و در سال 1398 پس از تایید کمیته علمی پنجمین کنفرانس پردازش سیگنال و سیستم های هوشمند پذیرفته شده است. کلمات کلیدی استفاده شده در این مقاله شبکه های عصبی پیچشی متورم، واحد بازگشتی گیت دار، شناسایی اعمال، معماری دو جریانی. هستند. این مقاله در تاریخ 7 بهمن 1398 توسط سیویلیکا نمایه سازی و منتشر شده است و تاکنون 1208 بار صفحه این مقاله مشاهده شده است. در چکیده این مقاله اشاره شده است که شناسایی اعمال انسان در ویدئو با توجه به کاربردهای بسیاری که در زمینه های مختلف از جمله امنیت، سلامت، مدیریت هوشمند شهر و ساختمان و ... دارد، طی چند سال اخیر توجه زیادی را به خود جلب کرده است. از سوی دیگر، رویکردهای یادگیری عمیق مانند شبکه های عصبی پیچشی (CNN ها) و شبکه های عصبی بازگشتی (RNN ها) در ... . این مقاله در دسته بندی موضوعی یادگیری عمیق طبقه بندی شده است. برای دانلود فایل کامل مقاله ارائه یک معماری یادگیری عمیق برای شناسایی اعمال انسان در ویدئو با 6 صفحه به فرمت PDF، میتوانید از طریق بخش "دانلود فایل کامل" اقدام نمایید.