بهبود خوشه بندی اسناد بر مبنای یک اندازهگیری مشابهت جدید

Publish Year: 1389
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 1,910

This Paper With 13 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

IDMC04_015

تاریخ نمایه سازی: 15 دی 1389

Abstract:

خوشه بندی یکی از تکنیکهای بسیار قدرتمند داده کاوی برای کشف موضوع در صفحات متنی می باشد درا بتدا خوشه بندی در سیستمهای بازیابی اطلاعات و برای افزایش یاداوری ودقت و پیدا کردن صفحات مشابه بکار می رفت بعدها برای جستجوی مجموعه ای از سندها بطور اتوماتیک بکارگیری شد در خوشه بندی اسناد مطلوب این است که شباهت بین اسناد درون خوشه زیاد باشد و بین اسناد دو خوشه شباهت کمی وجود داشته باشد. خوشه بندی خانواده k-means برای اسناد متنی بسیار خوب گزارش شده اند معمولا تابع کسینوسی برای اندازه گیری مشابهت بین دو سند در تابع معیار استفاده می شود وقتی بخواهیم تعیین کنیم ایا سندی متعلق به یک خوشه است یا خیر تنها مشابهت جفتی بررسی می شود در حالیکه اگر خوشه ها به خوبی از هم جدا نباشند تقسیم بندی آنها فقط براساس جفت کفایت نمی کند زیرا بعضی از سندها در خوشه های مختلف ممکن مشابه یکدیگر باشند و این تابع به خوبی کار نخواهد کرد. درانی مقاله یک روش کارامد برای اندازه گیری مشابهت با وزن دهی دقیق تر در الگوریتم bisecting k-means ارائه شده است و برمبنای ارزیابی مجموعه داده های اسناد کارایی ان با معیار شباهت کسینوسی و روشهای قدیمی مقایسه شده است.

Authors

عبدالکریم الهی

عضو هیئت علمی دانشگاه آزاد اسلامی واحد بهشهر