کنترل بهینه تصادفی

30 بهمن 1404 - خواندن 4 دقیقه - 74 بازدید

کنترل بهینه تصادفی(stochastic optimal control )

مسائل کنترل تصادفی در زمان پیوسته شامل کنترل سیستمی است که تحت عدم قطعیت تکامل می یابد، که در آن هم متغییر حالت و هم متغییر ورودی های کنترلی تحت تاثیر عوامل تصادفی قرار می گیرند. هدف بدست آوردن یک قانون کنترلی است که یک معیار عملکرد (یا تابع هدف) را بهینه (ماکزیمم یا مینیمم) نماید. این مسائل کنترل بهینه تصادفی اغلب دارای سیستم دینامیکی به فرم معادلات دیفرانسیل تصادفی (SDE) هستند.

حل مسائل کنترل تصادفی در زمان پیوسته به دلیل تصادفی بودن دینامیک سیستم پیچیده است. روش های مختلفی از جمله برنامه ریزی پویا، اصل ماکزیمم تصادفی، شبیه سازی های مونت کارلو و تکنیک های یادگیری ماشین، روش های برای تقریب جواب های بهینه ارائه می دهند. انتخاب روش حل به ماهیت سیستم، منابع محاسباتی موجود و ابعاد مسئله بستگی دارد.

مسائل کنترل تصادفی در زمان پیوسته معمولا با استفاده از دو رویکرد اساسی و مکمل حل می شوند:

- اصل ماکزییم تصادفی (Stochastic Maximum Principle (SMP)): شرایط بهینگی لازم را از طریق یک سیستم معادلات دیفرانسیل تصادفی پیشرو-پسرو (FBSDE) و بهینه سازی همیلتونین فراهم می کند.

- اصل برنامه ریزی پویا (Dynamic Programming (DP)): برنامه ریزی پویا یک معادله دیفرانسیل جزئی غیرخطی HJB را برای بدست آوردن تابع ارزش و کنترل فیدبک بهینه حل می کند.

این دو رویکرد در ساختار ریاضی و پیاده سازی محاسباتی متفاوت هستند.

اصل ماکزیمم تصادفی (Stochastic Maximum Principle )

اصل ماکزیمم تصادفی، تعمیم تصادفی از اصل ماکزیمم پونتریاگین است. این روش، مسئله کنترل را به یک سیستم معادله دیفرانسیل تصادفی پیشرو-پسرو (FBSDE) تبدیل می کند. اصل ماکزیمم تصادفی شرایط بهینگی لازم را از طریق یک سیستم معادلات دیفرانسیل تصادفی پیشرو-پسرو و بهینه سازی همیلتونین فراهم می کند.

در این روش با تعریف یک تابع همیلتونین تعریف می شود و سپس معادله الحاقی (BSDE) را استخراج می گردد. با اعمال شرط بهینگی همیلتون یک دستگاه معادلات پیش رو-پس رو بدست می آید و از حل کنترل بهینه بدست می آید( جزییات تکمیل می شود).

رویکرد برنامه ریزی پویا (DP)

برنامه ریزی پویا بر اساس اصل بهینگی بنا شده است: یک سیاست کنترل بهینه این ویژگی را دارد که صرف نظر از شرایط اولیه، سیاست باید برای متغییر حالت حاصل از تصمیمات قبلی بهینه باشد.

در این روش به جای جستجوی مستقیم مقدار کنترل بهین، بر بدست آوردن تابع ارزش تمرکز می کند و تابع ارزش باید در معادله همیلتون-ژاکوبی-بلمن (HJB) صدق کند. ویژگی برنامه ریزی پویا شامل تولید کنترل بازخورد (حلقه بسته) و فراهم نمودن شرایط کافی برای بهینگی است.در واقع، برنامه ریزی پویا یک معادله دیفرانسیل جزئی غیرخطی HJB را برای بدست آوردن تابع ارزش و کنترل فیدبک بهینه حل می کند.

این مسئله معمولا بر اساس یک تابع ارزش 𝑉(𝑡,𝑥) فرمول بندی می شود که نشان دهنده ماکزییم هزینه مورد انتظار با شروع از زمان 𝑡 و حالت 𝑥 است. تابع ارزش، معادله همیلتون-ژاکوبی-بلمن (HJB) را برآورده می کند. معادله HJB برای مسائل کنترل تصادفی زمان پیوسته معمولا به صورت معادله غیرخطی بدست می آید. سپس با حل معادله HJB تابع ارزش و کنترل فیدبک بهینه بدست می آید.

کنترل بهینه کنترل تصادفی

یادداشت قبلی

یادگیری تقویتی توزیعی