CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

خوشهبندی اسناد با استفاده از پیوستگی مبتنی بر دانش

عنوان مقاله: خوشهبندی اسناد با استفاده از پیوستگی مبتنی بر دانش
شناسه ملی مقاله: IKMC07_487
منتشر شده در هفتمین کنفرانس ملی و اولین کنفرانس بین المللی مدیریت دانش در سال 1394
مشخصات نویسندگان مقاله:

ملیحه دانش - مربی گروه مهندسی کامپیوتر، دانشگاه علم و فناوری مازندران، ایران

خلاصه مقاله:
خوشهبندی، تکنیک دادهکاوی قدرتمند در کشف موضوع از اسناد متنی است. در این زمینه الگوریتمهای خانوادهk-means به دلیل سادگی و سرعت بالا در خوشهبندی دادههای حجیم کاربرد فراوانی دارند. در این الگوریتمهامعیار شباهتcosineتنها شباهت میان زوج اسناد را اندازهگیری میکند که درمواقعی که خوشهها به خوبی تفکیک نشده باشند عملکرد مناسبی ندارد. درمقابل، مفاهیم همسایگی و پیوستگی با در نظرگرفتن اطلاعات سراسری در محاسبه میزان نزدیکی دو سند و اعمال آن در انتخاب مراکز خوشههای اولیه و در محاسبه میزان مشابهت میان اسناد، عملکرد بسیار بهتری دارند. چنانچه میزان شباهت دو سند از حد آستانهای بیشتر باشد آن دو سند همسایهاند و تعداد همسایههای مشترک میانشان، میزان پیوستگی آنها را نشان میدهد. در این مدل روابط معنایی میان کلمات نادیده گرفته شده و تنها اسنادی با واژگان مشابه به یکدیگر مرتبط میشوند. در این مقاله از آنتولوژی وردنت جهت ایجاد مدل جدید مبتنی بر دانش در نمایش اسناد بهره بردیم که در آن از روابط معنایی میان کلمات، جهت وزنگذاری مجدد فرکانس آنها در مدل فضای برداری اسناد استفاده نمودیم و سپس مفاهیم همسایگی و پیوستگی را بر روی مدل حاصل اعمال کردیم. نتایج حاصل از اعمال روش پیشنهادی بر روی مجموعه دادههای واقعی، حاکی از عملکرد مناسبتر آن نسبت به روشهای پیشین میباشد.

کلمات کلیدی:
خوشهبندی اسناد، همسایگی، پیوستگی، آنتولوژی، شباهتمعنایی ، cosine

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/481412/