تسریع فرایند یادگیری تقویتی با شکل دهی پاداش به کمک تحلیل گراف محیط

مریم, مرعشی; علیرضا, خلیلیان; محمدابراهیم, شیری

تسریع فرایند یادگیری تقویتی با شکل دهی پاداش به کمک تحلیل گراف محیط

عنوان مقاله: تسریع فرایند یادگیری تقویتی با شکل دهی پاداش به کمک تحلیل گراف محیط
شناسه ملی مقاله: CECIT01_569
منتشر شده در کنگره ملی مهندسی برق، کامپیوتر و فناوری اطلاعات در سال 1392

مشخصات نویسندگان مقاله:

مریم مرعشی - دانشگاه صنعتی امیرکبیر
علیرضا خلیلیان - دانشگاه علم و صنعت ایران
محمدابراهیم شیری - دانشگاه صنعتی امیرکبیر

خلاصه مقاله:

یادگیری تقویتی به مجموعه روشهایی گفته میشود که درآن عامل هوشمند با استفاده ازتعامل پویا با محیط و دریافت سیگنالهای تقویتی رفتار خود را بهبود می بخشد اما این فرایند اغلب بسیارزمان گیر هزینه بر و گاهی پرخطر است پاداش ساختگی روشی موفق در افزایش سرعت یادگیری عامل دریادگیری تقویتی است گرچه ایده اصلی این پاداش دادن یک بازخورد عددی به غیرازپاداش محیط به عامل یادگیرنده می باشد اما چگونگی محاسبه این پاداش به نحو موثردرمحیطهای بزرگ و واقعی هنوز یک موضوع چالش برانگیز است الگوریتم پیشنهادی دراین مقاله پاداش ساختگی جدیدی به عامل تزریق می کند تا بتواندسرعت یادگیری آن را افزایش دهد این پاداش براساس ساخت گراف محیط شناسایی اهداف میانی براساس معیار مرکزیت میانگی و شناسایی وضعیت های کم اهمیت با تحلیل خودکارگراف محیط تنظیم میشود میزان موفقیت روش پیشنهادی روی محیطهای محک مختلفی چون maze و برج هانوی ازمایش گردیده است نتایج بدست آمده کارایی این روش را نشان میدهد.

کلمات کلیدی:

بازخوردمصنوعی، پاداش ساختگی، یادگیری تقویتی، یادگیری کیو

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/210992/