مقایسه الگوریتم های یادگیری تقویتی در برنامه ریزی تولید مبتنی بر عامل

مهدی صادق زاده; محمد گلشاهی; حسین فرضعلی وند

مقایسه الگوریتم های یادگیری تقویتی در برنامه ریزی تولید مبتنی بر عامل

Publish place: 1st National conference on Soft Computing and Information Technology (NCSCIT2011)

Publish Year: 1389

نوع سند: مقاله کنفرانسی

زبان: Persian

This Paper With 8 Page And PDF Format Ready To Download

دریافت فایل کامل Paper

Certificate
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

https://civilica.com/doc/132717

شناسه ملی سند علمی:

NCSCIT01_012

تاریخ نمایه سازی: 19 بهمن 1390

Abstract:

در سال های اخیر , یادگیری تقویتی برای محققان مبتنی بر عامل , مورد توجه قرار گرفته است , زیرا این موضوع با این مطلب در ارتباط است که چگونه یک عامل خود مختار می تواند برای انتخاب عملیات درست جهت بدست آوردن اهدافش از طریق اثر بر روی محیطش یاد بگیرد .اگر چه مثالهایی وجود دارد که سودمندی یادگیری تقویتی را توضیح می دهندع امام کاربردش در سیستمهای تولیدی هنوز کاملاً کشف نشده است.در این مقاله ما بیشتر بر روی طرز کار الگوریتم های یادگیری تقویتی متمرکز شده ایم و دو نوع ار الگوریتم یادگیری تقویتی را در این مقاله به کاربرده ایم. در این مقاله , Q-Learning و SARSA دو الگوریتم معروف یادگیری تقویتی هستند که در یک ماشین منفرد انتخاب قانون اعزام مسئله بکار رفته اند تا توانایی های این دو الگوریتم را در مسائل برنامه ریزی تولید میتنی بر عامل مورد بررسی قرار دهیم و نشان دهیم که کدامیک با اموزش سریع اما راه حل نامطمئن و کدامیک با آموزش دراز مدت اما راه حل مطمئن جواب مسئله را کشف می کنند. این مقاله ، نتایج خوبی را فراهم می کند که نشان دهنده قدرت الگوریتم های یادگیری تقویتی برای حل مسائل مختلف است.

Keywords:

یادگیری تویتی ع الگوریتم Q-Learning , الگوریتم SARSA

Authors

مهدی صادق زاده

گروه کامپیوتر - دانشگاه آزاد اسلامی واحد ماهشهر

محمد گلشاهی

گروه کامپیوتر - دانشگاه آزاد اسلامی واحد دزفولی

حسین فرضعلی وند

گروه کامپیوتر - دانشگاه آزاد اسلامی واحد ایذه

مراجع و منابع این Paper:

لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :

برای عامل در دوره 100*2000 همگرا شده اند که جواب ...
انتخاب کرد. از آنجائی که الگوریتم SARSA مبتنی بر سیاست ...
می رسد، در نتیجه می توان گفت عاملهای SARSA قادر ...
تاثیری بر دوره یادگیری در الگوریتم SARSA نمی گذارد و ...
Morton, T.E., Pentico, D.W., 1993. Heuristic Scheduling Systems. Wiley, New ...
_ _ _ _ , and ...
Brucker, P., 2001. Scheduling Algorithms. Springer, Berlin. ...
Yi-Chi Wang, John M. Usher. Application of scheduling. 2004 Elsevier ...
Aydin, M.E., Oztemel, E., 2000. Dynamic job-shop and Autonomous Systems ...
Zhang, W., Dietterich, _ 1995. A reinforcement ...
Gammon. Communic ations of the ACM 3 (3), 58-67. ...
Crites, R.H., Barto, A.G., 1996. Improving elevator performance using reinforcemet ...
Weiss, G., 1999. Multiagent Systems: A Modern Approach to Distributed ...
Sutton, R.S., Barto, A.G., 1999. Reinforcement Learning: An Introduction. The ...
Mahadevan, S., Kaelbling, L.P., 1996. The NSF ...
Rummery and Niranjan, 1994 Rummery, G. A. and Niranjan, M. ...

نمایش کامل مراجع