اکتساب مهارت در یادگیری تقویتی و الگوریتم های آن
Publish place: National Conference of Technology, Energy & Data on Electrical & Computer Engineering
Publish Year: 1394
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 1,083
This Paper With 7 Page And PDF Format Ready To Download
- Certificate
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
TEDECE01_243
تاریخ نمایه سازی: 30 آبان 1394
Abstract:
یادگیری تقویتی یکی از حوزه های یادگیری ماشین است که هدف آن بهبود رفتار عامل هوشمند بر اساس سیگنال های تقویتی است که از محیط دریافت می کند. تنها مسیر اطلاعرسانی به عامل در یادگیری تقویتی، از راه سیگنال پاداش یا جریمه میباشد. سیگنال پاداش به عامل می فهماند که آیا تصمیم مناسبی گرفته است یا خیر. عامل موظف است با در دست داشتن این اطلاعات یاد بگیرد که بهترین عمل کدام است. یکی از مشکلات یادگیری تقویتی این است که با پیچیده تر شدن محیط، تعداد پارامترهای تصمیم گیری افزایش می یابد و زمان یادگیری نیز بیشتر می شود. تنظیم درست پارامترها اولین قدم در کاهش سرعت یادگیری است. هدف از این مقاله، مروری بر ادبیات یادگیری تقویتی، مفاهیم اصلی، روشها و الگوریتمهای آن و مفهوم پاداش شکل دهی شده است. به منظور مشاهده و بررسی تاثیر برخی پارامترها در اجرای الگوریتمها روی محیط های مختلف، همچنین نتیجه استفاده از پاداش شکل دهی شده، برخی از الگوریتمهای یادگیری تقویتی در قالب نرمافزار شبیهسازطراحی و پیادهسازی شده است. سپس آزمایش هایی روی چند محیط محک همچون maze و شش اتاقه انجام شده و نتایج گزارش شده اند.
Keywords:
Authors
مریم زارع
کارشناس نرمافزار، دانشگاه فنی و حرفه ای، دانشکده فنی دکتر شریعتی
علیرضا خلیلیان
دانشجوی دکتری نرم افزار، دانشگاه اصفهان
مراجع و منابع این Paper:
لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :