تبیین و پیاده سازی ۴ روش یادگیری تقویتی هوش مصنوعی (برنامه ریزی پویا، مونت کارلو، تفاضلات زمانی (سارسا و یادگیری ((Q برای مسیریابی یک کوادروتور در حضور موانع در صفحه با فرض گسسته سازی

Publish Year: 1402
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 70

This Paper With 6 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

AEROSPACE22_193

تاریخ نمایه سازی: 31 مرداد 1403

Abstract:

یادگیری تقویتی یکی از انواع روش های یادگیری ماشین هوش مصنوعی است که به یک عامل این امکان را می دهد تا از تعامل با محیط و از طریق ازمون و خطا یاد بگیرد. می دانیم یادگیری فرآیندی سیستماتیک برای تنظیم پارامترهای سیاست یه منظور رسیدن به سیاست بهینه است ، از طرفی یادگیری تقویتی به روز رسانی پارامترهای سیاست از نتیجه پاداش و جریمه می باشد. در فرآیندهای تصمیم گیری مارکوف محدود، مسائل با فرض شناخت کامل از دینامیک محیط در حالت گسسته و محدود حل می شوند؛ در برنامه ریزی پویا مجموعه ای از روش ها برای تعیین سیاست بهینه با داشتن مدل مارکوف محدود تبین می شود؛ روش مونت کارلو بدون نیاز به دینامیک و فقط از طریق تعامل و تجربه با محیط یادگیری تحقق بخشیده می شود؛ در یادگیری با تفاضلات مکانی بر اساس پاداش در همان لحظه سیاست به روزرسانی می شود و منتظر اتمام دوره نخواهیم ماند؛ در الگوریتم سارسا ارزیابی و بهبود سیاست به صورت همزمان انجام شده و وابسته به سیاست رفتاری است و در نهایت در یادگیری Q ارزش های بهینه مستقل از سیاست رفتاری تخمین زده می شوند و وابسته به مدل دینامیکی هم نمی باشند که با پیاده سازی تمامی این روش های برای یک کوادروتور با فرض گسسته سازی در حضور موانع عملکرد آن ها بررسی شده و نقاط قوت و ضعف هر کدام تبیین گردید که یادگیری Q بهترین عملکرد را بدون داشتن مدل تبیین کرد.

Keywords:

Authors

جعفر روشنی یان

استاد، دانشگاه خواجه نصیرالدین طوسی، تهران، ایران

فاطمه خواجه محمدی

دانشجوی دکتری هوافضا، دانشگاه خواجه نصیرالدین طوسی، تهران، ایران