اکتساب مهارت در یادگیری تقویتی و الگوریتم های آن

مریم زارع; علیرضا خلیلیان

اکتساب مهارت در یادگیری تقویتی و الگوریتم های آن

Publish place: National Conference of Technology, Energy & Data on Electrical & Computer Engineering

Publish Year: 1394

نوع سند: مقاله کنفرانسی

زبان: Persian

This Paper With 7 Page And PDF Format Ready To Download

دریافت فایل کامل Paper

Certificate
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

https://civilica.com/doc/396164

شناسه ملی سند علمی:

TEDECE01_243

تاریخ نمایه سازی: 30 آبان 1394

Abstract:

یادگیری تقویتی یکی از حوزه های یادگیری ماشین است که هدف آن بهبود رفتار عامل هوشمند بر اساس سیگنال های تقویتی است که از محیط دریافت می کند. تنها مسیر اطلاعرسانی به عامل در یادگیری تقویتی، از راه سیگنال پاداش یا جریمه میباشد. سیگنال پاداش به عامل می فهماند که آیا تصمیم مناسبی گرفته است یا خیر. عامل موظف است با در دست داشتن این اطلاعات یاد بگیرد که بهترین عمل کدام است. یکی از مشکلات یادگیری تقویتی این است که با پیچیده تر شدن محیط، تعداد پارامترهای تصمیم گیری افزایش می یابد و زمان یادگیری نیز بیشتر می شود. تنظیم درست پارامترها اولین قدم در کاهش سرعت یادگیری است. هدف از این مقاله، مروری بر ادبیات یادگیری تقویتی، مفاهیم اصلی، روشها و الگوریتمهای آن و مفهوم پاداش شکل دهی شده است. به منظور مشاهده و بررسی تاثیر برخی پارامترها در اجرای الگوریتمها روی محیط های مختلف، همچنین نتیجه استفاده از پاداش شکل دهی شده، برخی از الگوریتمهای یادگیری تقویتی در قالب نرمافزار شبیهسازطراحی و پیادهسازی شده است. سپس آزمایش هایی روی چند محیط محک همچون maze و شش اتاقه انجام شده و نتایج گزارش شده اند.

Keywords:

یادگیری تقویتی , پاداش ساختگی , یادگیری کیو , سارسا , R-max

Authors

مریم زارع

کارشناس نرمافزار، دانشگاه فنی و حرفه ای، دانشکده فنی دکتر شریعتی

علیرضا خلیلیان

دانشجوی دکتری نرم افزار، دانشگاه اصفهان

مراجع و منابع این Paper:

لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :

کلامی، مصطفی، "یادگیری تقویتی: روش‌ها و کاربردها"، سمینار دوره‌ای گروه ...
خرامان، یونس، "یادگیری ماشین"، گزارش تحقیق، موسسه آموزش عالی اشراق ...
مرعشی، مریم، "کسب مهارت در یادگیری تقویتی فعال توسط عامل‌های ...
فرحناکیان، فهیمه، "یادگیری تقویتی"، ماه‌نامه هوش مصنوعی و ابزار دقیق، ...
I8 جمشیدی، نیلوفر، "مروری بر الگوریتم‌های یادگیری تقویتی و پیاده‌سازی ...
Markov Decision Process _ Temporal Difference 1 1 Dynamic Programming ...

نمایش کامل مراجع