روش نوینی بر پایه Fuzzy Actor-Critic و اثبات همگرایی آن

Publish Year: 1391
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 1,496

This Paper With 5 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

IIEC09_071

تاریخ نمایه سازی: 26 اسفند 1391

Abstract:

روشهای برگرفته ازیادگیری ماشین machine learning و بهویژه روشهای مبتنی بریادگیری تقویتی که بصورت گسترده برای داده کاوی و کنترل سیستمهای دینامیکی به کارمیرود اصولا برمبنای رهیافت فضای حالت (state spaceطراحیشده و به همین دلیل غالبا ماهیتی گسسته دارند از انجا که بسیاری ازمسائل واقعی درحوزه مهندسی با محیطهای پیوسته سروکار دارند نیاز به روشهای هوشمندی که بدون نیاز به یک مدل دقیق ریاضی ازسیستم و صرفا از طریق یادگیری بتوانند رفتارسیستم را پیش بینی کرده و عملکرد آن را کنترل نمایند روز بروز بیشتر احساس میشود دراین مقاله روش جدیدی برپایه الگوریتم Fuzzy Actor-Critic برای حل مسایل کنترلی درمحیطهای پیوسته ارایه میگردد روش مزبور با استفاده ازتخمین یک تابع ارزش value function جدید رفتار سیستم را بصورت پیوسته شبیهسازی کرده و سیاست policy) بهینه برای رسیدن به هدف را با کمترین هزینه محاسباتی بدست میدهد.

Authors

مهدی ایمانی

دانشجوی کارشناسی ارشد مهندسی برق

سیده فاطمه قریشی

دانشجوی کارشناسی ارشد مهندسی مکانیک

مسعود شریعت پناهی

دانشیار دانشگاه تهران

محسن ایمانی

دانشجوی کارشناسی ارشد مهندسی برق

مراجع و منابع این Paper:

لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :
  • P. Marbach, O. Mihatsch, and J. N. Tsitsiklis, "Call admission ...
  • R. Sun, E. Merrill, and T. Peterson, _ implicit skill ...
  • T. Tesauro, :Practical issues in temporal differencing learning, " Machine ...
  • J. Zhang and T. Dietterich, _ reinforcement learning approach to ...
  • Watkins, C. . C. H. (1989). Learning from Delayed Rewards. ...
  • Szepesv_ari, C. (1997). The asymptotic convergenc e-rate of Q-learning. In ...
  • Even-Dar, E. and Mansour, Y. (2003). Learning rates for Q- ...
  • Sutton, R. S., McAllester, D. A., Singh, S. P., and ...
  • Sutton, R. S., Maei, H. R., Precup, D., Bhatnagar, S., ...
  • Maei, H., Szepesv_ari, C., Bhatnagar, S., Silver, D., Precup, D., ...
  • Maei, H., Szepesv_ari, C., Bhatnagar, S., and Sutton, R. (2010b). ...
  • Sutton, R. S., McAllester, D., Singh, S., & Mansour, Y. ...
  • Baxter, J., & Bartlett, P. (2001). In_nite-horizon policy- gradient estimation. ...
  • Greensmith, E., Bartlett, P., & Baxter, J. (2004). Variance reduction ...
  • Sutton, R. S. (1988). Learning to predict by the methods ...
  • نمایش کامل مراجع