یادگیری تقویتی توزیعی

24 دی 1404 - خواندن 6 دقیقه - 63 بازدید

یادگیری تقویتی توزیعی (Distributional Reinforcement Learning)

یادگیری تقویتی توزیعی با یادگیری کل توزیع بازده (پاداش های تجمعی) اطلاعات بیشتر و بهتری از توزیع های پاداش ها برای تصمیم گیری های بهینه فراهم می نماید. در یادگیری تقویتی معمولی تابع هدف مقدار بازده مورد انتظار(Expected return) که یک عدد اسکالر است را بهینه می کند. در حالیکه یادگیری تقویتی توزیعی، تابع هدف توزیع کامل بازده است، که این تابع هدف را برای موارد حساس به ریسک نیز میتوان استفاده نمود.



در یادگیری تقویتی معمولی (مانند Q-Learning)، هدف مدل این است که یک سیاست (policy) پیدا کند که از طریق آن، مقدار پاداش (Reward) مورد انتظار برای هر جفت متغییر حالت (state) و اقدام (action) را پیش بینی کند. یعنی به جای توزیع پاداش های مختلف، فقط یک مقدار میانگین از پاداش ها (مانند مقدار Q) را یاد می گیرد.


یادگیری تقویتی توزیعی
در یادگیری تقویتی توزیعی مدل به جای اینکه تنها مقدار پاداش مورد انتظار را پیش بینی کند، توزیع پاداش ها برای هر جفت متغییر حالت و عمل را یاد میگیرد. این رویکرد به مدل یادگیری تقویتی این امکان را می دهد که تفاوت های بین سناریوهای مختلف را بهتر درک کند و تصمیم گیری بهتری انجام دهد.

در یادگیری تقویتی توزیعی به جای استفاده از یک تابع ارزش (Value function) که یک مقدار مورد انتظار پاداش ها را به ازای هر حالت ارائه می دهد، از یک توزیع احتمال استفاده می شود که برای هر جفت متغیر حالت و اقدام، احتمالات مختلف پاداش ها را مدلسازی می شود. 


روش های یادگیری توزیعی (نمایش توزیع احتمال)

برای نمایش توزیع احتمال در روش یادگیری تقویتی توزیع می توان از روش های مبتنی بر کوانتایل استفاده نمود.

- روش توزیع طبقه بندی شده ((C51)categorical distribution): مدل سازی توزیع گسسته از مقادیر Q

- روش رگرسیون کوانتایل(Quantile Regression): یادگیری کوانتایل ها به صورت رگرسیون

- روش شبکه کونتایل ضمنی (Implicit Quantile Networks)(IQN):استفاده از شبکه عصبی ضمنی برای یادگیری کوانتایل ها



در الگوریتم C51 از توزیع های گسسته (Categorical Distribution) برای پیش بینی مقادیر تابع Q استفاده می شود. در این روش مقادیر از پیش مشخص شده و برای مسائل با پیچیدگی کمتر موثر است. در این الگوریتم، مدل به جای پیش بینی تنها یک مقدار میانگین Q، یک مجموعه از مقادیر Q را برای هر جفت متغییر حالت و اقدام پیش بینی می کند. این توزیع به صورت یک توزیع طبقه بندی شده (categorical distribution) از 51 مقدار مختلف (که معمولا از پیش مشخص می شود) است. در فرآیند آموزش مدل برای هر جفت متغییر حالت و اقدام یک توزیع 51 حالته (در این نسخه خاص) از مقادیر Q را به طور مستقل برای هر حالت و اقدام یاد می گیرد.


در روش رگرسیون کوانتایل دقت بالاتری در مدل سازی توزیع های پیچیده تر نسبت به روش C51 دارد. این روش به جای مدل سازی توزیع کامل، به طور خاص کوانتایل ها (Quantiles) یا همان درصدها از توزیع پاداش ها را مدلسازی می کند(یاد میگیرد). کوانتایل ها به طور کلی مقادیر خاص از توزیع هستند که نشان دهنده تقسیم داده ها به بخش های مساوی هستند. در این روش مدل برای هر جفت متغییر حالت-اقدام، مقادیر مختلف از توزیع را یاد می گیرد و با استفاده از رگرسیون کوانتایل، برای پیش بینی مقادیر مختلف از پاداش ها عمل می کند. بطور کلی این روش عدم قطعیت ها را به شکلی موثرتری نسبت به روش طبقه بندی C51 در نظر می گیرد.

در فرآیند آموزش مدل یاد می گیرد که مقادیر مختلف کوانتایل از توزیع پاداش ها را پیش بینی نماید و پس از دریافت پاداش ها، مدل از خطای کوانتایل برای آپدیت بهتر استفاده می کند. 


برخلاف روش رگرسیون کوانتایل که فقط تعداد خاصی از کوانتایل ها را یاد می گیرد، روش شبکه کونتایل ضمنی (IQN) به طور ضمنی می تواند یک مجموعه بی نهایت از کوانتایل ها را یاد بگیرد. در این روش از یک شبکه عصبی ضمنی برای یادگیری پیوسته و به صورت بی نهایت هر کوانتایلی مورد نیاز استفاده می شود. مدل یادگیری تقویتی از این شبکه عصبی استفاده می کند تا توزیع کوانتایل ها را برای هر جفت متغییر حالت و اقدام یاد بگیرد. برخلاف روش رگرسیون کوانتایل که تعداد ثابت کوانتایل ها برای یادگیری را مشخص می کند، در شبکه عصبی صمنی تعداد کوانتایل ها در هر زمان می تواند به طور دینامیک تغییر کند و مدل توانایی بیشتری در یادگیری توزیع های پیچیده تر خواهد داشت. بنابراین در رویکرد شبکه عصبی ضمنی امکان مدلسازی توزیع های پیچیده تری وجود دارد.



نکته: تفاوت یادگیری تقویتی با سایر روش های یادگیری ماشین

یادگیری تقویتی به دلیل ماهیت تعاملی و نیاز به تصمیم گیری های متوالی، از نظر داده محوری متفاوت از روش های سنتی یادگیری ماشین (یادگیری ماشین نظارت شده) است.

در روش های یادگیری ماشین متداول مانند یادگیری نظارت شده (Supervised Learning) داده ها به صورت ثابت و آماده (مستقل و برچسب گذاری شده) در دسترس هستند، در حالیکه در یادگیری تقویتی، داده ها به طور وابسته به یکدیگر و در قالب تعامل با محیط جمع آوری می شوند و بصورت متوالی (sequential) استفاده می شود. به بیان دیگر در روش یادگیری ماشین معمولی فرآیند یادگیری از داده ها یکباره است، ولی در یادگیری تقویتی یادگیری از داده ها بصورت پیوسته و متوالی است.