تشخیص ناهنجاریهای اطلاعاتی بااستفاده از یک الگوریتم خوشه بندی موازی

Publish Year: 1387
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 2,194

This Paper With 18 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

IDMC02_145

تاریخ نمایه سازی: 14 فروردین 1388

Abstract:

ناهنجاری اطلاعاتی به آن دسته از اطلاعات گفته می شود که بنحو بارزی با بقیه اطلاعات متفاوت باشد. تشخیص ناهنجاریها کاربردهای مختلفی دارد: مانند تشخیص تقلبهای کارتهای اعتباری و پولشویی، تحقیقات پزشکی ، پیش بینی وضع هوا، بازاریابی و تقسیم بندی مشتریان، برای تشخیص ناهنجاریها ابزارهای متفاوتی وجود دارد: از جمله می توان به داده کاوی اشاره کرد که سعی در استخراج دانشهای مفید از میان انبوه اطلاعات دارد. یکی از مهمترین تکنیکهای داده کاوی، خوشه بندی است که مجموع داده ها را به گروه هایی تقسیم می کند بطوریکه عناصر داخل هر گروه بیشترین شباهت را با هم و کمترین شباهت را با سایر اعضای گروههای دیگر داشته باشند. خوشه های با چگالی کم و فاصله زیاد از بقیه ناهنجاری محسوب می شوند. حجم زیاد و توزیع شدگی اطلاعات از جمله مسائلی هستند که همواره مشکلاتی برای الگوریتم های تشخیص ناهنجاری ایجاد می کنند. در این مقاله ابتدا یک الگوریتم خوشه بندی موازی بنام «K-window» موازی را معرفی کرده و سپس آن را بمنظور مقابله با حجم زیاد و توزیع شدگی اطلاعات و در جهت تشخیص ناهنجاریها بهبود می دهیم. برای این منظور گره های پردازشگر را در یک ساختار سلسله مراتبی سازماندهی می کنیم تا ترافیک اطلاعاتی را کنترل کنیم. از آنجایی که هدف تشخیص داده های غیر طبیعی است. داده های طبیعی را در هر مرحله تشخیص داده و حذف می کنیم تا ترافیک اطلاعاتی را کاهش دهیم از طرف دیگر انتخاب هوشمندانه پنجره های اولیه و نیز تشخیص خوشه هایی با اشکال نامنظم توان الگوریتم را بالا برده است. با استفاده از یک مکانیزم جدید از همپوشانی بیش از حد خوشه ها جلوگیری می کنیم و با ادغام خوشه ها اساس نزدیکی مرز خوشه ها با همدیگر، سرعت مرحله ادغام را نیز بالا برده ایم. نتایج آزمایشات مانشان میدهد که کلیه تغییر ات انجام یافته در الگوریتم پایه، باعث بالارفتن کارایی گشته است بطوریکه با حذف آنها نتایج بسیار ضعیفی حاصل می شود.