بهبود الگوریتم تجمیع تغییرداده انتخابی برای طبقه بندی جریان داده های نامتعادل و غیرایستان

Publish Year: 1399
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 565

This Paper With 11 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

CECCONF10_003

تاریخ نمایه سازی: 6 شهریور 1399

Abstract:

در سال های اخیر شاهد توجه چشمگیری در حوزه ی کاوش جریان داده بوده ایم. مدل های جریان داده در محیط های پویا عمل می کنند، که اقلام داده با حجم بی نهایت در طول زمان جمع آوری می شوند. یکی از مهمترین ویژگی های جریان داده ها رانش مفهوم هست. علاوه بر حجم بالا و رانش مفهوم، عدم تعادل کلاس یک مسئله پیچیده در زمینه کاوش جریان داده است. اگر چه این دو مسئله، یعنی یادگیری رانش مفهوم و یادگیری از داده های نامتعادل، به طور جداگانه مورد مطالعه قرار گرفته اند، اما پژوهش های زیادی در مورد این مسائل، زمانی که هر دو عدم تعادل کلاس و رانش مفهوم وجود دارد بحث نمی کنند. در ضمن، بسیاری از روش های موجود، تاثیر عوامل دشواری داده روی یادگیری جریان داده های نامتعادل را نادیده گرفته اند. یکی از کاراترین و جدیدترین الگوریتم ها در این زمینه، روش تجمیع تغییر داده مبتنی بر انتخاب (SRE) هست که هدف آن یادگیری جریان داده های نامتعادل و غیرایستان است. با این حال این روش نقاط ضعفی دارد از جمله زمانیکه با کمبود داده های اقلیت مواجه می شویم، که باعث نادیده گرفتن عوامل دشواری داده و رانش می شود. با بهره گیری از این روش در این پژوهش روشی جدید برای این مسئله بیان کرده ایم که برای شناسایی دقیق تر کلاس اقلیت از الگوریتم SMOTE استفاده کرده ایم. ارزیابی انجام شده بر روی مجموعه داده های مصنوعی و واقعی نشان می دهد که در مقایسه با رویکردهای موجود، رویکرد ما در معیار ارزیابی G_mean روی هر دو مجموعه داده بهتر عمل می کند که میزان آن در مجموعه داده Elec=0.79 ،HYPER=0.81 و می تواند به طور قابل توجهی بهبود عملکرد در پیش بینی صحیح کلاس اقلیت و همچنین کلاس اکثریت داشته باشد.

Keywords:

طبقه بندی جریان داده ها , رانش مفهوم , عدم تعادل کلاس , تجمیع

Authors

افسانه تاجیک

دانشگاه بین المللی امام رضا(ع)

عادل قاضی خانی

دانشگاه بین المللی امام رضا(ع)