بهبود بیش برآورد یادگیری تقویتی عمیق برون-سیاست با شبکه به ر وزرسان انتخابی عمیق

علی صالحی; محمدرضا اکبرزاده توتونچی; علیرضا روحانیمنش

بهبود بیش برآورد یادگیری تقویتی عمیق برون-سیاست با شبکه به ر وزرسان انتخابی عمیق

Publish place: Twenty-seventh International Computer Conference of the Iranian Computer Associatio

Publish Year: 1400

نوع سند: مقاله کنفرانسی

زبان: Persian

This Paper With 6 Page And PDF Format Ready To Download

دریافت فایل کامل Paper

Certificate
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

https://civilica.com/doc/1452943

شناسه ملی سند علمی:

CSICC27_037

تاریخ نمایه سازی: 3 خرداد 1401

Abstract:

شبکه های عصبی عمیق-DQN) Q) نمونه ای از یادگیری تقویتی عمیق مبتنی بر یادگیریQ هستند که در آن تابع Q نمایانگر ارزش تمامی کنش های یک کارگزار در تمامی حالت های یک محیط است. یادگیری این شبکه به دلیل نگاه خوشبینانه کارگزار در تخمین حالت های آتی سبب شده است تا کارگزار مبتنی بر DQN ناپایدار و به همراه بیش برازش باشد. راه حل پیشنهادی در این مقاله ارائه نمودن شبکه به روزرسان انتخابی عمیق۱ است که در آن مشکل بیش برآورد ارزش تخمینی آینده بهبود یابد. در این رویکرد، نحوه به روزرسانی کارگزار در ابتدای یادگیری نگرش محتاطانه تری نسبت به تخمین ارزش ها دارد و با گذر زمان به رویکرد خوشبینانه یادگیریQ تغییر مسیر خواهد داد. این امر به آن جهت است که تخمین ارزش حالت های آتی در ابتدای یادگیری قابل اتکا نیست و استفاده از آن در محیط های با هزینه بالا روند یادگیری را ناپایدار میکند. نتایج حاصل برای دو محیط شبکه تنظیم کننده ژن و پاندول معکوس نشان میدهد که رهیافت پیشنهادی علاوه بر کاهش بیش برآورد تخمین ارزش، پاداش بیشتری را نسبت به DQN جمع آوری مینماید .

Keywords:

بیش برآورد , یادگیری تقویتی عمیق , شبکه های عصبی عمیق-Q , برون-سیاست , شبکه به روزرسان انتخابی عمیق , پاندول معکوس , شبکه تنظیم کننده ژن , ۵۳P

Authors

علی صالحی

گروه مهندسی کامپیوتر، قطب علمی رایانش نرم و پردازش هوشمند اطالعات، دانشگاه فردوسی مشهد

محمدرضا اکبرزاده توتونچی

گروه مهندسی برق، قطب علمی رایانش نرم و پردازش هوشمند اطالعات، دانشگاه فردوسی مشهد

علیرضا روحانیمنش

گروه مهندسی برق، دانشگاه نیشابور،