بررسی ارتباط طول عمر کنترلکننده و شیوهی تصمیم گیری بهینه در حل مسألهیMABبا استفاده از یادگیری تقویتی

سیدمصطفی کلامی هریس; محمدباقر نقیبی سیستانی

بررسی ارتباط طول عمر کنترلکننده و شیوهی تصمیم گیری بهینه در حل مسألهیMABبا استفاده از یادگیری تقویتی

Publish place: 2nd Joint Congress on Fuzzy and Intelligent Systems

Publish Year: 1387

نوع سند: مقاله کنفرانسی

زبان: Persian

This Paper With 6 Page And PDF Format Ready To Download

دریافت فایل کامل Paper

Certificate
من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

هوش مصنوعی > یادگیری ماشین

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

https://civilica.com/doc/204019

شناسه ملی سند علمی:

FJCFIS02_310

تاریخ نمایه سازی: 26 تیر 1392

Abstract:

مسألهیMAB کاربردهای وسیعی در علوم مهندسی، آمار، اقتصاد و روانشناسی دارد و در شاخههای مختلف علمی و فنی به اشکال متفاوتی ظاهر میشود. یکی از چالشهایی که در حل این مسأله وجود دارد، لزوم برقراری تعادل میان بهرهجویی از اطلاعات فعلی کسب اطلاعات جدید از محیط میباشد. این دو پدیده، به ترتیب به نامهای بهرهبرداریExploitation) و جستجوExploration) معروف هستند. روشی که در این مقاله برای حل مسألهی MAB به کار رفته است، روش یادگیری تقویتی است. این روش، که نوعی رویکرد یادگیری غیر نظارت شده را پیادهسازی میکند، این امکان را فراهم میکند که با تغییر پارامترهای تصمیمگیری، تعادل مطلوب بین پدیدههای جستجو و بهرهبرداری به وجود بیایند. در این نوشتار، با انجام آزمایشهای متعدد، ارتباط میان پارامترهای تصمیمگیری و طول بازهی زمانی برای حل مسأله، که به طول عمر کنترل کننده یا عامل یادگیرنده معروف است، مورد بررسی قرار گرفته است.

Keywords:

تخصیص منابع , تصمیم گیری , یادگیری تقویتی , یادگیری ماشینی. Multi-Armed Bandit (MAB

Authors

سیدمصطفی کلامی هریس

دانشکدهی مهندسی دانشگاه فردوسی مشهد

محمدباقر نقیبی سیستانی

استادیار

مراجع و منابع این Paper:

لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :

عبارت دیگر، هر چه عامل یادگیرنده و یا کنترل کننده ...
Leslie Pack Kaelbling, Michael L. Littman and _ Moore, "Reinforcement ...
Berry, D. and B. Fristedt, Bandit _ _ Allocation of ...
_ _ _ Computation, vol. 196, Issue 2, pp. 913-922, ...
Dirk Bergemann and Juuso Valimiki, _ Problems, " _ Discussion ...
news _ _ Goodء [5] Braz Camargo, bandits, " in ...
Tom M. Mitchell, Machine Learning. McGraw Hill, _ ...
A. Mahajan and D. Teneketzis, "Chapter 6: Multi-Ar##d Bandit Problems, ...
Peter Auer t al, _ non-stochastic multi-armed bandit problem, " ...
P. Auer, N. Cesa-Bianchf and Paul Fischer, "Finite-time Analysis of ...
S. I. Reynolds, "Reinforcement Learning with Exploration, " Ph.D. Thesis, ...

نمایش کامل مراجع