روشی جدید برای خوشه بندی اسناد HTML با استفاده از الگوریتم های تلفیقی

مریم شعار; علی اصغر سالارنژاد

روشی جدید برای خوشه بندی اسناد HTML با استفاده از الگوریتم های تلفیقی

Publish place: IT Management Studies، Vol: 6، Issue: 24

Publish Year: 1397

نوع سند: مقاله ژورنالی

زبان: Persian

This Paper With 26 Page And PDF Format Ready To Download

دریافت فایل کامل Paper

Certificate
من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

هوش مصنوعی > داده کاوی

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

https://civilica.com/doc/804223

شناسه ملی سند علمی:

JR_IMS-6-24_002

تاریخ نمایه سازی: 6 آذر 1397

Abstract:

با عنایت به حجم بالای اطلاعات کنونی وب توجه به سیستم های خودکار استخراج اطلاعات بیشتر شده است. از مهم ترین روش های خودکار استخراج اطلاعات، خوشه بندی می باشد. روش های خوشه بندی زیادی تابه حال ارایه شده است که اکثرا مبتنی بر مدل برداری می باشند. در این مدل با هر سند مانند مجموعه ای از کلمات برخورد می گردد و توالی کلمات در جمله، نادیده گرفته می شود. از آنجایی که معانی در زبان طبیعی به طور کامل وابسته به توالی کلمات می باشند نقیصه بزرگی در این روش ها احساس می گردد. برای رفع این نقیصه در این مقاله روشی جدید در خوشه بندی اسناد Html ارایه گردیده است که در آن الگوریتم Stc برای خوشه بندی Snippet ها لحاظ شده است. این روش که با عنوان خوشه بندی براساس جملات کلیدی Ks_Stc مطرح شده برای هر سند بردار وزن داری تهیه می کند و با استفاده از این بردار، جملات کلیدی هر متن از سند استخراج می گردد و نهایتا این جملات کلیدی برای خوشه بندی به الگوریتم Stc داده می شود.

Keywords:

افزونگی اطلاعات , خوشه بندی اسناد Html , داده کاوی , سیستم های استخراج اطلاعات , کلاس بندی

Authors

مریم شعار

استادیار، گروه مدیریت صنعتی، دانشکده مدیریت، دانشگاه آزاد اسلامی، واحد تهران شمال، تهران

علی اصغر سالارنژاد

کارشناسی ارشد، مدیریت فناوری اطلاعات، دانشکده مدیریت، دانشگاه آزاد اسلامی، واحد تهران شمال، تهران