بررسی ارتباط طول عمر کنترلکننده و شیوهی تصمیم گیری بهینه در حل مسألهیMABبا استفاده از یادگیری تقویتی

Publish Year: 1387
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 820

This Paper With 6 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

FJCFIS02_310

تاریخ نمایه سازی: 26 تیر 1392

Abstract:

مسألهیMAB کاربردهای وسیعی در علوم مهندسی، آمار، اقتصاد و روانشناسی دارد و در شاخههای مختلف علمی و فنی به اشکال متفاوتی ظاهر میشود. یکی از چالشهایی که در حل این مسأله وجود دارد، لزوم برقراری تعادل میان بهرهجویی از اطلاعات فعلی کسب اطلاعات جدید از محیط میباشد. این دو پدیده، به ترتیب به نامهای بهرهبرداریExploitation) و جستجوExploration) معروف هستند. روشی که در این مقاله برای حل مسألهی MAB به کار رفته است، روش یادگیری تقویتی است. این روش، که نوعی رویکرد یادگیری غیر نظارت شده را پیادهسازی میکند، این امکان را فراهم میکند که با تغییر پارامترهای تصمیمگیری، تعادل مطلوب بین پدیدههای جستجو و بهرهبرداری به وجود بیایند. در این نوشتار، با انجام آزمایشهای متعدد، ارتباط میان پارامترهای تصمیمگیری و طول بازهی زمانی برای حل مسأله، که به طول عمر کنترل کننده یا عامل یادگیرنده معروف است، مورد بررسی قرار گرفته است.

Keywords:

تخصیص منابع , تصمیم گیری , یادگیری تقویتی , یادگیری ماشینی. Multi-Armed Bandit (MAB

Authors

سیدمصطفی کلامی هریس

دانشکدهی مهندسی دانشگاه فردوسی مشهد

مراجع و منابع این Paper:

لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :
  • عبارت دیگر، هر چه عامل یادگیرنده و یا کنترل کننده ...
  • Leslie Pack Kaelbling, Michael L. Littman and _ Moore, "Reinforcement ...
  • Berry, D. and B. Fristedt, Bandit _ _ Allocation of ...
  • _ _ _ Computation, vol. 196, Issue 2, pp. 913-922, ...
  • Dirk Bergemann and Juuso Valimiki, _ Problems, " _ Discussion ...
  • news _ _ Goodء [5] Braz Camargo, bandits, " in ...
  • Tom M. Mitchell, Machine Learning. McGraw Hill, _ ...
  • A. Mahajan and D. Teneketzis, "Chapter 6: Multi-Ar##d Bandit Problems, ...
  • Peter Auer t al, _ non-stochastic multi-armed bandit problem, " ...
  • P. Auer, N. Cesa-Bianchf and Paul Fischer, "Finite-time Analysis of ...
  • S. I. Reynolds, "Reinforcement Learning with Exploration, " Ph.D. Thesis, ...
  • نمایش کامل مراجع