بهبود خوشه بندی اسناد بر مبنای یک اندازهگیری مشابهت جدید
Publish place: 3rd Iran Data Mining Conference (IDMC)
Publish Year: 1389
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 1,910
This Paper With 13 Page And PDF Format Ready To Download
- Certificate
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
IDMC04_015
تاریخ نمایه سازی: 15 دی 1389
Abstract:
خوشه بندی یکی از تکنیکهای بسیار قدرتمند داده کاوی برای کشف موضوع در صفحات متنی می باشد درا بتدا خوشه بندی در سیستمهای بازیابی اطلاعات و برای افزایش یاداوری ودقت و پیدا کردن صفحات مشابه بکار می رفت بعدها برای جستجوی مجموعه ای از سندها بطور اتوماتیک بکارگیری شد در خوشه بندی اسناد مطلوب این است که شباهت بین اسناد درون خوشه زیاد باشد و بین اسناد دو خوشه شباهت کمی وجود داشته باشد. خوشه بندی خانواده k-means برای اسناد متنی بسیار خوب گزارش شده اند معمولا تابع کسینوسی برای اندازه گیری مشابهت بین دو سند در تابع معیار استفاده می شود وقتی بخواهیم تعیین کنیم ایا سندی متعلق به یک خوشه است یا خیر تنها مشابهت جفتی بررسی می شود در حالیکه اگر خوشه ها به خوبی از هم جدا نباشند تقسیم بندی آنها فقط براساس جفت کفایت نمی کند زیرا بعضی از سندها در خوشه های مختلف ممکن مشابه یکدیگر باشند و این تابع به خوبی کار نخواهد کرد. درانی مقاله یک روش کارامد برای اندازه گیری مشابهت با وزن دهی دقیق تر در الگوریتم bisecting k-means ارائه شده است و برمبنای ارزیابی مجموعه داده های اسناد کارایی ان با معیار شباهت کسینوسی و روشهای قدیمی مقایسه شده است.
Keywords:
Authors
عبدالکریم الهی
عضو هیئت علمی دانشگاه آزاد اسلامی واحد بهشهر