تسریع فرایند یادگیری تقویتی با شکل دهی پاداش به کمک تحلیل گراف محیط

مریم مرعشی; علیرضا خلیلیان; محمدابراهیم شیری

تسریع فرایند یادگیری تقویتی با شکل دهی پاداش به کمک تحلیل گراف محیط

Publish place: Congress on Electrical, Computer and Information Technology

Publish Year: 1392

نوع سند: مقاله کنفرانسی

زبان: Persian

This Paper With 5 Page And PDF Format Ready To Download

دریافت فایل کامل Paper

Certificate
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

https://civilica.com/doc/210992

شناسه ملی سند علمی:

CECIT01_569

تاریخ نمایه سازی: 14 شهریور 1392

Abstract:

یادگیری تقویتی به مجموعه روشهایی گفته میشود که درآن عامل هوشمند با استفاده ازتعامل پویا با محیط و دریافت سیگنالهای تقویتی رفتار خود را بهبود می بخشد اما این فرایند اغلب بسیارزمان گیر هزینه بر و گاهی پرخطر است پاداش ساختگی روشی موفق در افزایش سرعت یادگیری عامل دریادگیری تقویتی است گرچه ایده اصلی این پاداش دادن یک بازخورد عددی به غیرازپاداش محیط به عامل یادگیرنده می باشد اما چگونگی محاسبه این پاداش به نحو موثردرمحیطهای بزرگ و واقعی هنوز یک موضوع چالش برانگیز است الگوریتم پیشنهادی دراین مقاله پاداش ساختگی جدیدی به عامل تزریق می کند تا بتواندسرعت یادگیری آن را افزایش دهد این پاداش براساس ساخت گراف محیط شناسایی اهداف میانی براساس معیار مرکزیت میانگی و شناسایی وضعیت های کم اهمیت با تحلیل خودکارگراف محیط تنظیم میشود میزان موفقیت روش پیشنهادی روی محیطهای محک مختلفی چون maze و برج هانوی ازمایش گردیده است نتایج بدست آمده کارایی این روش را نشان میدهد.

Keywords:

بازخوردمصنوعی , پاداش ساختگی , یادگیری تقویتی , یادگیری کیو

Authors

مریم مرعشی

دانشگاه صنعتی امیرکبیر

علیرضا خلیلیان

دانشگاه علم و صنعت ایران

محمدابراهیم شیری

دانشگاه صنعتی امیرکبیر

مراجع و منابع این Paper:

لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :

S.Sutton & A.G.Barto, Reinforcement Learning : An Introduction, ...
L.P. Kaelbling, et al. Reinforcement Learning :A Survey Journal Of ...
M. J. Mataric. Reward functions for accelerated learning. In Proceedings ...
A.Epshteyn and G.Dejong, Qualitative Reinforcement Learning, _ _ _ Conference ...
Andrew Y.Ng, Shaping and police search in reinforcement ...
_ _ _ Urbana-Ch ampaign, 2004 ...
_ _ _ international conference _ machine learning(ICML) _ Pages ...
B.Marthi, Automatice shaping and Decomposition of Reward function, Proceedings of ...
J.Asmuth And M.L.Littmar And R.Zinkov, Potential-based shaping in model based ...
Marek Grzes, Daniel Kudenko, Learning Shaping Rewards in Model-based Reinforcement ...
L.P. Kaelbling, et al., Reinforcement Learning : A Survey , ...
Watkin, Watkin Proof of Q-learning Convergence, 1992 ...
G. A. Rummery and M. Niranjan, "On-Line Q-Learning Using Connectionis ...
"" international _ _ learning, _ 471, Morgan Kaufmann, CA. ...
C. M. Bishop, Neural networks for pattern recognition. Oxford University ...
A.Laud, and G.Dejong, The influence of reward on the speed ...
_ International _ _ iearming _ 440-447, 2003 ...
Wiewiora, E., Potential-based shaping and Q-value initialization are equivalent. Journal ...
Pieter Abbe.l and Andrew Y.Ng, Exploration and apprenticeship learming in ...
B.Marthi, S.Russell, Automatice shaping and Decomposition of Reward function., In ...
Marek Grze, Daniel Kudenko., Online learning of shaping rewards in ...

نمایش کامل مراجع