الگوریتم یادگیری تقویتی طرح ریزی اکتشافی اعمال شده به سیستم های تصمیم گیری استراتژی بازی role-playing: Dyna- H

Publish Year: 1393
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 742

This Paper With 13 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

RCEITT01_215

تاریخ نمایه سازی: 11 اردیبهشت 1394

Abstract:

یکی از مهمترین وظایف در قانون بازی، پیدا کردن حرکت بهینه است. در واقع تکنیک سیستم تصمیمگیری، تبدیل به یکی ازاجزای مهم بازی میشود. تصمیمات گرفته شده برای روش مورد نظر به عنوان مثال: آنلاین، گروهی و یا شبیهسازی شده و منابعمصرف شده در تصمیمگیری اجرای زمان، حافظه به میزان زیادی، عملکرد بازی را تحت تأثیر قرار میدهند. هنگامی که امکان استفاده از الگوریتمهای جستجوی کلاسیک مانند Aوجود دارد، این الگوریتمها اولین انتخاب برای محاسبهی راه حلهای بهینه هستند. با این وجود، به این دلیل که چنین روشهایی متکی بر دقت و داشتن مدلهای کاملی از فضای جستجو میباشند، محاسبهی راهحلهای بهینه توسط این الگوریتمها میتواند برای محیطهای بسیار بزرگ مشکل باشد، به طوری که بسیاری از سناریوهای جالب وجود دارند که استفاده از آنها امکان پذیر نیست؛ از این رو، روشهای بدون مدل برای تصمیمگیری، تحت شرایط غیر قطعی بهترین انتخاب هستند. در این مقاله، الگوریتم جدید طرحریزی اکتشافی با نامDyna-Hپیشنهاد شده است که مبتنی بر ساختار شناخته شدهیDynaمیباشد و توانایی جستجوی اکتشافی در مسیریابی را دارد. . الگوریتم پیشنهادی DYNA-HمانندA مسیر های مناسب تر را برای ارائه نتایج، از بین کل مسیر های موجود انتخاب می کند. با این حال برخلافA دارای مزایای بدون مدل الگوریتم تقویتی یادگیری است. الگوریتمDyna-Hرا با دو الگوریتم مسیریابی یادگیری- Dyna-Q و Q از نظر میزان و سرعت یادگیری مورد مقایسه قرار داده و این نتیجه حاصل شد کهDyna-Hدر مسائلمسیریابی نتایجی به وضوح بهتر را فراهم می نماید

Authors

نکیسا کیانی

کارشناس ارشد علوم کامپیوتر، دانشگاه سیستان و بلوچستان.

مراجع و منابع این Paper:

لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :
  • Alvarez, C., Santos, M., Lopez, V., Reinforcemert Iearnin vs _ ...
  • nath «earc:h _ that considlere ilamare as a feasihilitv criterion, ...
  • Karamouzas, I., Overmars, M.H., Inilicative _ for Path PIannino anl ...
  • Mitchell, _ Machine _ McGraw-Hill, (1997). ...
  • Muse, D., Wewber, C., Wermter, S., R، hot ilockino hasel ...
  • Janssen, D., _ time andl _ information f، ) activitv-travrl ...
  • Crites, RH., Barto, A.G.. Imnroving elevator nerformance _ reinfonrcement learning ...
  • Sutton, R.S., _ _ integrated architecture for learning. planning. and ...
  • Sutton, R. S., Barto, A. G., Re inforcemert I earning: ...
  • Bellman, R.E., Dynamic Programmigg, Princeton University Press, Princeton, NJ, (1957). ...
  • Bellman, R.E., Dreyfus, S.E.., Applied _ _ Princeton University Press, ...
  • Janssen, D., _ time _ Ication informmatiow f، activitv-travel _ ...
  • Thapa, D., Jung, I., Wang, G., Agent based decision support ...
  • Fard, M., Pineau, J., Non-iletermin _ nlicies in markovian _ ...
  • Santos, M., Martin, J.A., Lopez, V., Botella, G., Tvna - ...
  • Dijkstra, E.W., A note On two problems in connection with ...
  • Sutton, R.S., Learning to predict by the method of temporal ...
  • C.J. Watkins, P. Dayan, Technical note Q-learning, Machine Learning 8 ...
  • Aggarwal, A., A taxonomy of sequential decision support systems, Informing ...
  • نمایش کامل مراجع