الگوریتم یادگیری تقویتی برنامه ریزی اکتشافی با تکیه بر روش های یادگیری جهت بهینه سازی مسیریابی توسط ربات

Publish Year: 1398
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 611

This Paper With 12 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

ISCELEC03_100

تاریخ نمایه سازی: 14 فروردین 1399

Abstract:

یکی از شاخه های مهم تحقیقاتی در علم رباتیک برنامه ریزی حرکت ربات است که هدف آن یافتن مسیر بهینه از نقطه شروع به هدف و عاری از تصادم با موانع موجود در محیط ربات است. الگوریتم های A اولین انتخاب برای محاسبه ی راه حل های بهینه هستند. با این وجود، به این دلیل که چنین روش هایی نیازمند داشتن مدل های کاملی از فضای جستجومی باشند، محاسبه ی راه حل های بهینه توسط این الگوریتم ها در محیط های بسیار بزرگ مشکل است. این مقاله یک روش برنامه ریزی مسیر ربات، با استفاده از الگوریتم جدید طرح ریزی اکتشافی که مبتنی بر ساختار شناخته شده ی Dyna می باشد و توانایی جستجوی اکتشافی در مسیریابی را دارد، با استفاده از فرآیند تصمیم گیری مارکوف معرفی می نماید در این مقاله مفهوم بنیادی، اصول و روش یادگیری تقویتی و برخی از الگوریتم های دیگر مطرح شده است. سپس، برنامه ریزی مسیر ربات واحدی در محیط ایستا مبتنی بر یادگیری Q مورد مطالعه قرارگرفته و کاربرد این الگوریتم بر روی برنا مه ریزی مسیر از طریق تنظیم فضای حرکت و عمل و برنامه ریزی تابع تقویتی توصیف شده است . الگوریتم یادگیری تقویتی برنامه ریزی اکتشافی ، مانند A، مسیر های مناسب تر را برای ارائه نتایج، از بین کل مسیر های موجود انتخاب می کند. با این حال، برخلاف A دارای مزایای بدون مدل الگوریتم یادگیری تقویتی است. آزمایشات انجام شده که این الگوریتم را به صورت بصری مجسم می کنند، حاکی از یافتن مسیر بهینه توسط این الگوریتم می باشند.

Authors

نکیسا کیانی

مدرس دانشگاه جامع علمی کاربردی،کارشناسی ارشد علوم کامپیوتر

خوارزم کیانی

مهندسی فناوری اطلاعات و ارتباطات