روشی جدید جهت تعیین تعداد خوشه های بهینه درالگوریتم های خوشه بندی افرازی abstract
خوشه بندی داده ها، روش یافتن ویژگی های مشابه از میان حجم انبوه داده ها و دسته بندی آنها به گروه هایی است که هر یک از این گروه ها، خوشه نامیده می شوند. از آنجایی که عوامل مختلفی همچون نویز و تعداد ابعاد داده ها بر روی نتیجه الگوریتم های مختلف
خوشه بندی اثر گذارند، لذا این الگوریتم ها نتایج مختلفی تولید می کنند. با توجه به اینکه کیفیت
خوشه بندی و صحت خوشه های استخراج شده، بسیار حایز اهمیت است، لذا معیارهایی جهت اعتبارسنجی عملیات
خوشه بندی ابداع شده اند. شاخص های اعتبارسنجی
خوشه بندی با توجه به اطلاعات مورد استفاده جهت تعیین کیفیت خوشه بندی، به دو دسته داخلی و خارجی تقسیم می شوند. در این تحقیق سه شاخص ارزیابی استاندارد داخلی کیفیت
خوشه بندی Davies-Bouldin ،
Silhouette و
Gap ، مورد بررسی قرار گرفته اند. تلاش این پژوهش بر آن بوده است تا شاخص اعتبارسنجی داخلی جدیدی پیشنهاد شود به طوری که با استفاده از الگوریتم
خوشه بندی افرازی K-Means و در مقایسه با دیگر شاخص های معرفی شده، بر روی مجموعه داده های استاندارد مورد بررسی، بهتر عمل نماید. شاخص معرفی شده در تحقیق حاضر،
CAS Compression And Separation نام دارد. عملکرد شاخص
CAS برای تشخیص تعداد صحیح خوشه ها نسبت به شاخص
Davies-Bouldin به میزان % 27 / 27 ، نسبت به شاخص
Silhouette به مقدار % 36 / 36 و نسبت به شاخص
Gap به میزان % 54 / 54 بهتر عمل نموده است. نهایتا می توان نتیجه گرفت که شاخص
CAS با بیشترین تشخیص صحیح تعداد خوشه ها، نسبت به سه شاخص استاندارد دیگر مناسب ترین عملکرد را بر روی مجموعه داده های استاندارد دارد.