اکتساب مهارت در یادگیری تقویتی و الگوریتم های آن

مریم, زارع; علیرضا, خلیلیان

اکتساب مهارت در یادگیری تقویتی و الگوریتم های آن

عنوان مقاله: اکتساب مهارت در یادگیری تقویتی و الگوریتم های آن
شناسه ملی مقاله: TEDECE01_243
منتشر شده در کنفرانس ملی فن آوری، انرژی و داده با رویکرد مهندسی برق و کامپیوتر در سال 1394

مشخصات نویسندگان مقاله:

مریم زارع - کارشناس نرمافزار، دانشگاه فنی و حرفه ای، دانشکده فنی دکتر شریعتی
علیرضا خلیلیان - دانشجوی دکتری نرم افزار، دانشگاه اصفهان

خلاصه مقاله:

یادگیری تقویتی یکی از حوزه های یادگیری ماشین است که هدف آن بهبود رفتار عامل هوشمند بر اساس سیگنال های تقویتی است که از محیط دریافت می کند. تنها مسیر اطلاعرسانی به عامل در یادگیری تقویتی، از راه سیگنال پاداش یا جریمه میباشد. سیگنال پاداش به عامل می فهماند که آیا تصمیم مناسبی گرفته است یا خیر. عامل موظف است با در دست داشتن این اطلاعات یاد بگیرد که بهترین عمل کدام است. یکی از مشکلات یادگیری تقویتی این است که با پیچیده تر شدن محیط، تعداد پارامترهای تصمیم گیری افزایش می یابد و زمان یادگیری نیز بیشتر می شود. تنظیم درست پارامترها اولین قدم در کاهش سرعت یادگیری است. هدف از این مقاله، مروری بر ادبیات یادگیری تقویتی، مفاهیم اصلی، روشها و الگوریتمهای آن و مفهوم پاداش شکل دهی شده است. به منظور مشاهده و بررسی تاثیر برخی پارامترها در اجرای الگوریتمها روی محیط های مختلف، همچنین نتیجه استفاده از پاداش شکل دهی شده، برخی از الگوریتمهای یادگیری تقویتی در قالب نرمافزار شبیهسازطراحی و پیادهسازی شده است. سپس آزمایش هایی روی چند محیط محک همچون maze و شش اتاقه انجام شده و نتایج گزارش شده اند.

کلمات کلیدی:

یادگیری تقویتی، پاداش ساختگی، یادگیری کیو، سارسا، R-max

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/396164/