بهبود روش یادگیری تقویتی Q-Learning برای محیط های غیرقطعی با به کارگیری اتاماتای یادگیر

Publish Year: 1399
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 917

This Paper With 11 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

ITCT09_045

تاریخ نمایه سازی: 23 آبان 1399

Abstract:

روش یادگیری Q ، یک روش یادگیری تقویتی در محیط های قطعی است. قطعیت در پاداش و تابع انتقال حالات از فرضیات الگوریتم یادگیری Q است. در یک محیط غیرقطعی نتیجه ی عمل یک عامل مشخص نیست. بنابراین، مقادیر Q معیار مناسبی برای انتخاب عمل بهینه نمی باشد. استفاده از این روش درمحیط های غیر قطعی نیازمند دانشی پیرامون عدم قطعیت محیط است. آتاماتای یادگیر یک مدل یادگیری تقویتی است، که ویژگی تصمیم گیری در محیط های نویزی و ناشناخته را دارد. در این مقاله یک مدل ترکیبی با استفاده از آتاماتای یادگیر، برای یادگیری در محیط های غیر قطعی، ارائه شده است. در این مدل، با استفاده از آتاماتای یادگیر میزان عدم قطعیت در تعامل با محیط ارزیابی شده و در روش یادگیری Q برای انجام تصمیم گیری درخصوص انتخاب عمل بهینه از آن استفاده شده است. نتایج آزمایشات، بهبود کارایی الگوریتم یادگیری Q با استفاده از دانش ارائه شده توسط آتاماتای یادگیر را نشان داده است.

Authors

اسماعیل رضایی

استادیار، دانشگاه صنعتی بیرجند