CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

بهبود روش یادگیری تقویتی Q-Learning برای محیط های غیرقطعی با به کارگیری اتاماتای یادگیر

عنوان مقاله: بهبود روش یادگیری تقویتی Q-Learning برای محیط های غیرقطعی با به کارگیری اتاماتای یادگیر
شناسه ملی مقاله: ITCT09_045
منتشر شده در نهمین کنفرانس بین المللی فناوری اطلاعات،کامپیوتر و مخابرات در سال 1399
مشخصات نویسندگان مقاله:

اسماعیل رضایی - استادیار، دانشگاه صنعتی بیرجند

خلاصه مقاله:
روش یادگیری Q ، یک روش یادگیری تقویتی در محیط های قطعی است. قطعیت در پاداش و تابع انتقال حالات از فرضیات الگوریتم یادگیری Q است. در یک محیط غیرقطعی نتیجه ی عمل یک عامل مشخص نیست. بنابراین، مقادیر Q معیار مناسبی برای انتخاب عمل بهینه نمی باشد. استفاده از این روش درمحیط های غیر قطعی نیازمند دانشی پیرامون عدم قطعیت محیط است. آتاماتای یادگیر یک مدل یادگیری تقویتی است، که ویژگی تصمیم گیری در محیط های نویزی و ناشناخته را دارد. در این مقاله یک مدل ترکیبی با استفاده از آتاماتای یادگیر، برای یادگیری در محیط های غیر قطعی، ارائه شده است. در این مدل، با استفاده از آتاماتای یادگیر میزان عدم قطعیت در تعامل با محیط ارزیابی شده و در روش یادگیری Q برای انجام تصمیم گیری درخصوص انتخاب عمل بهینه از آن استفاده شده است. نتایج آزمایشات، بهبود کارایی الگوریتم یادگیری Q با استفاده از دانش ارائه شده توسط آتاماتای یادگیر را نشان داده است.

کلمات کلیدی:
یادگیری تقویتی، روش یادگیری Q ، عدم قطعیت، آتاماتای یادگیر، انتخاب عمل.

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1121591/