انتخاب ویژگی بهینه برای داده های بزرگ با استفاده از بازی های همکارانه و الگوریتم F-Score abstract
امروزه با پیشرفت فناوری، مجموعه
داده های بزرگ دارای ویژگی های زیاد و پیچیدگی محاسباتی بالا به وجود آمده اند. از این رو، انتخاب زیرمجموعه ویژگی با کمترین ویژگی، سرعت بیشتر و کارایی بالا امر بسیار مهمی می باشد. الگوریتم های رایج
انتخاب ویژگی با بررسی نکردن روابط میان ویژگی ها، کاهش دقت را به وجود می آورند. لذا، محققان برای بررسی روابط میان ویژگی ها و رسیدن به دقت بیشتر، روش
انتخاب ویژگی مبتنی بر تیوری بازی ها را ارایه داده اند که در داده ها با تعداد زیاد ویژگی، پیچیدگی محاسباتی بیشتری دارند. لذا افزایش سرعت
انتخاب ویژگی مبتنی بر بازی های همکارانه در کنار دقت بالا می تواند برای انتخاب زیرمجموعه ویژگی بهینه برای
داده های بزرگ استفاده شود. در این مقاله، الگوریتم FSCG ارایه شده است که ابتدا با محاسبه F-Score، ویژگی ها مرتب شده و سپس برای هر ویژگی ارزش شپلی شوبیک محاسبه می شود. لذا با تشخیص ویژگی بین دو کلاس، نقطه ضعف ارزش شپلی شوبیک که بار محاسباتی بالا به خاطر تعداد زیاد
انتخاب ویژگی های جفت با ایتلاف های بین ویژگی ها است را می پوشاند و ارزش شپلی شوبیک با مشخص کردن سهم هر ویژگی در یک همکاری نقطه ضعف
F-Score را پیدا می کند. این الگوریتم روی مجموعه داده های UCI پیاده سازی و ارزیابی ویژگی های انتخابی برای مجموعه داده ها با استفاده از دسته بند ماشین بردار پشتیبان (SVM) انجام شده است. تعداد ویژگی های انتخاب شده، دقت و زمان اجرای روش FSCG با روش های بدون کاهش ویژگی و روش SVEGA (Shaply Value Embedded Genetic Algorithm) مقایسه شده است. نتایج نشان می دهد که روش FSCG بر روی داده ها با تعداد ویژگی های زیاد با انتخاب زیرمجموعه ویژگی بهینه، علاوه بر دقت، بار محاسباتی کمتر و سرعت بیشتر را ارایه داده است.