مروری بر تکنیک ها و الگوریتم های پاسخگویی به پرسش های بصری

Publish Year: 1403
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 127

This Paper With 11 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

STCONF07_192

تاریخ نمایه سازی: 20 مرداد 1403

Abstract:

پاسخ به سوالات تصویری (VQA) یک کار چندوجهی است که شامل بینایی رایانه (CV) و پردازش زبان طبیعی (NLP) است . با توجه به یک تصویر و یک سوال آزاد و باز به زبان طبیعی ، هدف سیستم VQA ارائه پاسخ دقیق به زبان طبیعی در مورد تصویر داده شده است . این کار بسیار چالش برانگیز است زیرا به درک همزمان اطلاعات بصری و متنی نیاز دارد. اخرا،ی مکانیسم توجه به طور گسترده ای برای ایجاد پاسخ صحیح با گرفتن وابستگی های سراسری استفاده می شود. علاوه بر این ، اکثر رویکردهای اخیر VQA از ضرب نقطه ای برای محاسبه توجه درون وجهی و بین وجهی بین ویژگی های بصری و زبانی استفاده می کنند. این مقاله یک نمای کلی انتزاعی از تحقیقات پیشرفته در مورد VQA، از جمله VQA مبتنی بر نمودار دانش و ترکیب چند وجهی با شبکه های عصبی بازگشتی ارائه می کند. این مقاله همچنین چالش ها و جهت گیری آینده در این زمینه را برجسته می کند.

Authors

فاطمه قاسمی نژاد رائینی

دانشجوی ارشد مهندسی کامپیوتر دانشگاه شهید باهنر کرمان

مصطفی قاضی زاده احسائی

استاد گروه مهندسی کامپیوتر، دانشکده فنی و مهندسی، دانشگاه شهید باهنر کرمان