توسعه یادگیری تقویتی پیوسته در مسائل مکانی توزیع یافته (مورد مطالعاتی: کنترل هوشمند چراغ های راهنمایی)

محمد, اصلانی; محمدسعدی, مسگری

توسعه یادگیری تقویتی پیوسته در مسائل مکانی توزیع یافته (مورد مطالعاتی: کنترل هوشمند چراغ های راهنمایی)

عنوان مقاله: توسعه یادگیری تقویتی پیوسته در مسائل مکانی توزیع یافته (مورد مطالعاتی: کنترل هوشمند چراغ های راهنمایی)
شناسه ملی مقاله: JR_JIAE-17-3_007
منتشر شده در در سال 1399

مشخصات نویسندگان مقاله:

محمد اصلانی - Department of Geospatial Information System (GIS), Faculty of Geodesy and Geomatics Eng. K.N.Toosi University of Technology
محمدسعدی مسگری - Department of Geospatial Information System (GIS), Faculty of Geodesy and Geomatics Eng. K.N.Toosi University of Technology

خلاصه مقاله:

سامانه های چند عامله به عنوان شاخه ای از هوش مصنوعی در سال های اخیر به عنوان یک نگرش برای مطالعه، بررسی و تحلیل پدیده هایی که دارای خصوصیاتی همچون توزیع یافتگی، پیچیدگی، پایین به بالا بودن و پویایی هستند در زمینه های مختلف از جمله ترافیک، حمل و نقل، اقتصاد، محیط زیست و مواردی از این دست به طور گسترده بکار گرفته شده اند. چالش اصلی در سامانه های چند عامله بدست آوردن رفتار مناسب برای تک تک عامل ها برای رسیدن به رفتار سطح بالای بهینه برای کل سامانه است. یادگیری تقویتی به عنوان رویکردی مناسب که به صورت خودکار و تدریجی می تواند رفتار بهینه را برای تمام عامل ها در تعامل با محیط بدست آورد،برای حل این چالش مناسب است. در یادگیری تقویتی عامل ها در طول زمان از طریق تعامل با محیط یاد میگیرند که در شرایط (حالات) مختلف چه اعمالی را انجام دهند که منجر به دریافت بیشترین سود شود. روش های رایج یادگیری تقویتی در مسائل دنیای واقعی که دارای تعداد حالات محیط بسیار بالا یا بی نهایت هستند عملکرد مناسبی ندارند زیرا این روش ها مقداری مجزا را برای ارزش هر زوج حالت-عمل در حافظه اختصاص می دهند وعامل برای بدست آوردن مقدار دقیق ارزش هر زوج حالت-عمل نیاز دارد که به دفعات ارزش آنها را مشاهده نماید. نوآوری تحقیق حاضر،حل چالش فوق از طریق یادگیری تقویتی پیوسته در مسائل مکانی با فضای حالت-عمل بزرگ و پیوسته است. در رویکرد یادگیری تقویتی پیوسته از مفهوم تعمیم برای تخمین ارزش حالت-عمل استفاده می شود. در این روش عامل نیازی به تجربه اندوزی مستقیم در تمام حالات محیط را ندارد و ارزش یک حالت با شباهت سنجی از ارزش سایر حالات مشابه، تخمین زده می شود. این روش ها برای شباهت سنجی نیاز به کد گذاری حالات محیط دارند که در این تحقیق ناحیه بندی فضا که دارای حجم محاسباتی پایینی است مورد استفاده قرار گرفت. در این تحقیق کنترل ترافیک (به طور خاص مدیریت چراغ های راهنمایی) که دارای پویایی و پیچیدگی بالایی است به عنوان مورد مطالعاتی مطلوب انتخاب شد.

کلمات کلیدی:

سامانه های چند عامله, یادگیری تقویتی پیوسته, ناحیه بندی فضا و کنترل ترافیک.

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1157344/