یادگیری تقویتی برای سیستم های کنترلی

9 شهریور 1402 - خواندن 2 دقیقه - 428 بازدید

یادگیری تقویتی برای سیستم های کنترلی

(Reinforcement Learning for Control Systems)

یادگیری تقویتی(Reinforcement learning) یک چارچوب برای حل مسائل کنترل از جمله کنترل بهینه فراهم می نماید.

یادگیری تقویتی یک روش یادگیری ماشین مبتنی بر بازخورد(feedback-driven machine learning) است که یک رویه برای آموزش یک عامل (Agent) بر اساس آزمون و خطا در تعامل با محیط (سیستم) برای اخذ تصمیمات بهینه فراهم می کند. هدف این رویه یادگیری ماکزیمم کردن پاداش تجمعیمی باشد. در واقع عامل یاد می گیرد که با تعامل با محیط و دریافت بازخورد از طریق پاداش یا مجازات تصمیم گیری کند. 

الگوریتم های یادگیری تقویتی بطور کلی به دو گروه بدون مدل و مبتنی بر مدل تقسیم می شوند:

 یادگیری تقویتی بدون مدل: عامل یادگیری تقویتی که به مدلی از محیط متکی نیستند. آنها از تجربه مستقیم در تعامل با محیط یادگیری را انجام می دهند. 

 یادگیری تقویتی مبتنی بر مدل: عامل یادگیری تقویتی که مدلی از محیط را یاد می گیرند و از آن مدل برای برای ایجاد یک قانون کنترلی بدون آزمون و خطای مستقیم استفاده می نماید.


فرآیندهای تصمیم مارکوف

مسئله یادگیری تقویتی معمولا به عنوان فرآیندهای تصمیم مارکوف Markov decision processes (MDPs)) فرموله می شود که یک چارچوب ریاضی برای مدل سازی مسائل تصمیم گیری با نتایج تصادفی و اقدامات قابل کنترل ارائه می دهد.در یادگیری تقویتی، عامل بر اساس حالت فعلی محیط برای رسیدن به هدف مورد نظر اقدام (تصمیم) انجام می دهد.

مسئله یادگیری تقویتی بصورت مفهومی بعنوان یک مدل تعامل-محیط (Agent-Environment Interaction Model) ارائه می شود.


از نظر تئوری رویکردهای حل مسائل یادگیری تقویتی بر اساس برنامه ریزی پویا (Dynamic programming) است که نقطه اشتراک آن با کنترل بهینه است. لذا از یادگیری تقویتی برای مدلسازی و حل مسائل کنترلی بخصوص کنترل بهینه میتوان استفاده می کرد.

در یک مقایسه اجمالی یادگیری تقویتی و کنترل بهینه، محیط معادل سیستم دینامیکی و عامل معادل کنترلر می توان در نظر گرفت.





.

کنترل بهینهیادگیری تقویتی