تسریع فرایند یادگیری تقویتی با شکل دهی پاداش به کمک تحلیل گراف محیط
Publish place: Congress on Electrical, Computer and Information Technology
Publish Year: 1392
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 1,228
This Paper With 5 Page And PDF Format Ready To Download
- Certificate
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
CECIT01_569
تاریخ نمایه سازی: 14 شهریور 1392
Abstract:
یادگیری تقویتی به مجموعه روشهایی گفته میشود که درآن عامل هوشمند با استفاده ازتعامل پویا با محیط و دریافت سیگنالهای تقویتی رفتار خود را بهبود می بخشد اما این فرایند اغلب بسیارزمان گیر هزینه بر و گاهی پرخطر است پاداش ساختگی روشی موفق در افزایش سرعت یادگیری عامل دریادگیری تقویتی است گرچه ایده اصلی این پاداش دادن یک بازخورد عددی به غیرازپاداش محیط به عامل یادگیرنده می باشد اما چگونگی محاسبه این پاداش به نحو موثردرمحیطهای بزرگ و واقعی هنوز یک موضوع چالش برانگیز است الگوریتم پیشنهادی دراین مقاله پاداش ساختگی جدیدی به عامل تزریق می کند تا بتواندسرعت یادگیری آن را افزایش دهد این پاداش براساس ساخت گراف محیط شناسایی اهداف میانی براساس معیار مرکزیت میانگی و شناسایی وضعیت های کم اهمیت با تحلیل خودکارگراف محیط تنظیم میشود میزان موفقیت روش پیشنهادی روی محیطهای محک مختلفی چون maze و برج هانوی ازمایش گردیده است نتایج بدست آمده کارایی این روش را نشان میدهد.
Keywords:
Authors
مریم مرعشی
دانشگاه صنعتی امیرکبیر
علیرضا خلیلیان
دانشگاه علم و صنعت ایران
محمدابراهیم شیری
دانشگاه صنعتی امیرکبیر
مراجع و منابع این Paper:
لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :