بهبود روش یادگیری تقویتی Q-Learning برای محیط های غیرقطعی با به کارگیری اتاماتای یادگیر
Publish place: 9th International Conference on Information Technology, Computer and Telecommunications
Publish Year: 1399
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 917
This Paper With 11 Page And PDF Format Ready To Download
- Certificate
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ITCT09_045
تاریخ نمایه سازی: 23 آبان 1399
Abstract:
روش یادگیری Q ، یک روش یادگیری تقویتی در محیط های قطعی است. قطعیت در پاداش و تابع انتقال حالات از فرضیات الگوریتم یادگیری Q است. در یک محیط غیرقطعی نتیجه ی عمل یک عامل مشخص نیست. بنابراین، مقادیر Q معیار مناسبی برای انتخاب عمل بهینه نمی باشد. استفاده از این روش درمحیط های غیر قطعی نیازمند دانشی پیرامون عدم قطعیت محیط است. آتاماتای یادگیر یک مدل یادگیری تقویتی است، که ویژگی تصمیم گیری در محیط های نویزی و ناشناخته را دارد. در این مقاله یک مدل ترکیبی با استفاده از آتاماتای یادگیر، برای یادگیری در محیط های غیر قطعی، ارائه شده است. در این مدل، با استفاده از آتاماتای یادگیر میزان عدم قطعیت در تعامل با محیط ارزیابی شده و در روش یادگیری Q برای انجام تصمیم گیری درخصوص انتخاب عمل بهینه از آن استفاده شده است. نتایج آزمایشات، بهبود کارایی الگوریتم یادگیری Q با استفاده از دانش ارائه شده توسط آتاماتای یادگیر را نشان داده است.
Keywords:
Authors
اسماعیل رضایی
استادیار، دانشگاه صنعتی بیرجند