تبیین و پیاده سازی ۴ روش یادگیری تقویتی هوش مصنوعی (برنامه ریزی پویا، مونت کارلو، تفاضلات زمانی (سارسا و یادگیری ((Q برای مسیریابی یک کوادروتور در حضور موانع در صفحه با فرض گسسته سازی

جعفر, روشنی یان; فاطمه, خواجه محمدی

تبیین و پیاده سازی ۴ روش یادگیری تقویتی هوش مصنوعی (برنامه ریزی پویا، مونت کارلو، تفاضلات زمانی (سارسا و یادگیری ((Q برای مسیریابی یک کوادروتور در حضور موانع در صفحه با فرض گسسته سازی

عنوان مقاله: تبیین و پیاده سازی ۴ روش یادگیری تقویتی هوش مصنوعی (برنامه ریزی پویا، مونت کارلو، تفاضلات زمانی (سارسا و یادگیری ((Q برای مسیریابی یک کوادروتور در حضور موانع در صفحه با فرض گسسته سازی
شناسه ملی مقاله: AEROSPACE22_193
منتشر شده در بیست و دومین کنفرانس بین المللی انجمن هوافضای ایران در سال 1402

مشخصات نویسندگان مقاله:

جعفر روشنی یان - استاد، دانشگاه خواجه نصیرالدین طوسی، تهران، ایران
فاطمه خواجه محمدی - دانشجوی دکتری هوافضا، دانشگاه خواجه نصیرالدین طوسی، تهران، ایران

خلاصه مقاله:

یادگیری تقویتی یکی از انواع روش های یادگیری ماشین هوش مصنوعی است که به یک عامل این امکان را می دهد تا از تعامل با محیط و از طریق ازمون و خطا یاد بگیرد. می دانیم یادگیری فرآیندی سیستماتیک برای تنظیم پارامترهای سیاست یه منظور رسیدن به سیاست بهینه است ، از طرفی یادگیری تقویتی به روز رسانی پارامترهای سیاست از نتیجه پاداش و جریمه می باشد. در فرآیندهای تصمیم گیری مارکوف محدود، مسائل با فرض شناخت کامل از دینامیک محیط در حالت گسسته و محدود حل می شوند؛ در برنامه ریزی پویا مجموعه ای از روش ها برای تعیین سیاست بهینه با داشتن مدل مارکوف محدود تبین می شود؛ روش مونت کارلو بدون نیاز به دینامیک و فقط از طریق تعامل و تجربه با محیط یادگیری تحقق بخشیده می شود؛ در یادگیری با تفاضلات مکانی بر اساس پاداش در همان لحظه سیاست به روزرسانی می شود و منتظر اتمام دوره نخواهیم ماند؛ در الگوریتم سارسا ارزیابی و بهبود سیاست به صورت همزمان انجام شده و وابسته به سیاست رفتاری است و در نهایت در یادگیری Q ارزش های بهینه مستقل از سیاست رفتاری تخمین زده می شوند و وابسته به مدل دینامیکی هم نمی باشند که با پیاده سازی تمامی این روش های برای یک کوادروتور با فرض گسسته سازی در حضور موانع عملکرد آن ها بررسی شده و نقاط قوت و ضعف هر کدام تبیین گردید که یادگیری Q بهترین عملکرد را بدون داشتن مدل تبیین کرد.

کلمات کلیدی:

یادگیری تقویتی ، برنامه ریزی پویا، تصمیم گیری مارکوف محدود، تفاضلات مکانی ، مونت کارلو، الگوریتم سارسا، یادگیری Q ، اجتناب از برخورد با موانع ، کوادروتور

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/2058723/