مروری بر تکنیک ها و الگوریتم های پاسخگویی به پرسش های بصری
Publish place: The 7th National Conference on New Technologies in Electrical, Computer and Mechanical Engineering of Iran
Publish Year: 1403
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 127
This Paper With 11 Page And PDF Format Ready To Download
- Certificate
- من نویسنده این مقاله هستم
این Paper در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
STCONF07_192
تاریخ نمایه سازی: 20 مرداد 1403
Abstract:
پاسخ به سوالات تصویری (VQA) یک کار چندوجهی است که شامل بینایی رایانه (CV) و پردازش زبان طبیعی (NLP) است . با توجه به یک تصویر و یک سوال آزاد و باز به زبان طبیعی ، هدف سیستم VQA ارائه پاسخ دقیق به زبان طبیعی در مورد تصویر داده شده است . این کار بسیار چالش برانگیز است زیرا به درک همزمان اطلاعات بصری و متنی نیاز دارد. اخرا،ی مکانیسم توجه به طور گسترده ای برای ایجاد پاسخ صحیح با گرفتن وابستگی های سراسری استفاده می شود. علاوه بر این ، اکثر رویکردهای اخیر VQA از ضرب نقطه ای برای محاسبه توجه درون وجهی و بین وجهی بین ویژگی های بصری و زبانی استفاده می کنند. این مقاله یک نمای کلی انتزاعی از تحقیقات پیشرفته در مورد VQA، از جمله VQA مبتنی بر نمودار دانش و ترکیب چند وجهی با شبکه های عصبی بازگشتی ارائه می کند. این مقاله همچنین چالش ها و جهت گیری آینده در این زمینه را برجسته می کند.
Keywords:
Authors
فاطمه قاسمی نژاد رائینی
دانشجوی ارشد مهندسی کامپیوتر دانشگاه شهید باهنر کرمان
مصطفی قاضی زاده احسائی
استاد گروه مهندسی کامپیوتر، دانشکده فنی و مهندسی، دانشگاه شهید باهنر کرمان