CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

نقدوبررسی روشهای یافتن اسنادمشابه بادرجه تشابه بالا

عنوان مقاله: نقدوبررسی روشهای یافتن اسنادمشابه بادرجه تشابه بالا
شناسه ملی مقاله: BPJ01_291
منتشر شده در اولین همایش ملی رویکردهای نوین در مهندسی کامپیوتر و بازیابی اطلاعات در سال 1392
مشخصات نویسندگان مقاله:

معصومه قاسمی ماه سایه - کارشناسی ارشدکامپیوتر
علی مهجور - دکتری تخصصی

خلاصه مقاله:
مسائل مختلفی درزمینه داده کاوی ازمجموعه داده های عظیم مطرح است که یکی ازآنها یافتن عناصرمشابه است موارد مختلفی رادراین مسئله میتوان به عنوان عناصردرنظرگرفت یکی ازموارد مرتبط دراین زمینه بررسی برای یافتن اسنادمشابه بادرجه تشابه بالا می باشد یعنی هدف یافتن اسنادی می باشد که تقریبا یکسان هستند مسئله پیدا کردن اسنادمشابه رامیتوان به یک مسئله برپایه ی مجموعه تبدیل کرد که این کاردرقالب روش Shingling انجام میگیرد همچنین درادامه میتوان به کمک اعضای این مجموعه ها زابررسی تمامی جفت اسنادبرای یافتن اسنادمشابه خودداری کرد وفقط اسنادی را که با احتمال بیشتری مشابه هستند بررسی نمودازجمله میتوان به روش شاخص گذاری اشاره کرد که به این صورت عمل می کند ما دراین مقاله روشهای مختلف شاخص گذاری راباپیاده سازی و مورد بررسی قراردادیم این روشها شامل شاخص گذاری براساس پیشوند موقعیت و طول پسوند می باشند درواقع هدف اصلی مقاله ارزیابی این روشها و همچنین کمک به تصمیم گیری برای انتخاب بهترین روش باتوجه به فرضهای مسائل مختلف می باشد

کلمات کلیدی:
داده کاوی،Shingling/شاخص گذاری پیشوند/شاخص گذاری موقعیت/شاخص گذاری طول پسوند

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/225556/