بهبود خوشه بندی اسناد بر مبنای یک اندازهگیری مشابهت جدید

عبدالکریم الهی

بهبود خوشه بندی اسناد بر مبنای یک اندازهگیری مشابهت جدید

Publish place: 3rd Iran Data Mining Conference (IDMC)

Publish Year: 1389

نوع سند: مقاله کنفرانسی

زبان: Persian

This Paper With 13 Page And PDF Format Ready To Download

دریافت فایل کامل Paper

Certificate
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

https://civilica.com/doc/109013

شناسه ملی سند علمی:

IDMC04_015

تاریخ نمایه سازی: 15 دی 1389

Abstract:

خوشه بندی یکی از تکنیکهای بسیار قدرتمند داده کاوی برای کشف موضوع در صفحات متنی می باشد درا بتدا خوشه بندی در سیستمهای بازیابی اطلاعات و برای افزایش یاداوری ودقت و پیدا کردن صفحات مشابه بکار می رفت بعدها برای جستجوی مجموعه ای از سندها بطور اتوماتیک بکارگیری شد در خوشه بندی اسناد مطلوب این است که شباهت بین اسناد درون خوشه زیاد باشد و بین اسناد دو خوشه شباهت کمی وجود داشته باشد. خوشه بندی خانواده k-means برای اسناد متنی بسیار خوب گزارش شده اند معمولا تابع کسینوسی برای اندازه گیری مشابهت بین دو سند در تابع معیار استفاده می شود وقتی بخواهیم تعیین کنیم ایا سندی متعلق به یک خوشه است یا خیر تنها مشابهت جفتی بررسی می شود در حالیکه اگر خوشه ها به خوبی از هم جدا نباشند تقسیم بندی آنها فقط براساس جفت کفایت نمی کند زیرا بعضی از سندها در خوشه های مختلف ممکن مشابه یکدیگر باشند و این تابع به خوبی کار نخواهد کرد. درانی مقاله یک روش کارامد برای اندازه گیری مشابهت با وزن دهی دقیق تر در الگوریتم bisecting k-means ارائه شده است و برمبنای ارزیابی مجموعه داده های اسناد کارایی ان با معیار شباهت کسینوسی و روشهای قدیمی مقایسه شده است.

Keywords:

خوشه بندی اسناد , همسابه ها , تابع لینک , بهبود وزن دهی

Authors

عبدالکریم الهی

عضو هیئت علمی دانشگاه آزاد اسلامی واحد بهشهر