CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

بررسی روشهای برآورد میسان تشابه فیلدها در پایگاه داده های بسرگ

عنوان مقاله: بررسی روشهای برآورد میسان تشابه فیلدها در پایگاه داده های بسرگ
شناسه ملی مقاله: NCCSE01_007
منتشر شده در همایش ملی علوم و مهندسی کامپیوتر در سال 1391
مشخصات نویسندگان مقاله:

مینا قاری زاده بیرق - دانشجوی کارشناسی ارشد نرم افزار دانشگاه آزاد اسلامی واحد شبستر
محمدرضا درخشی - عضو هیئت علمی گروه کامپیوتر دانشگاه تبریز

خلاصه مقاله:
تشخیص رکورد تکراری، فرآیند شناسایی رکوردهای چندگانه و مختلف است که به یک شی یا نهاد منحصر به فرد از جهان واقعی اشاره می کند. تشخیص رکوردهای تکراری یکی از گام های اساسی در افزایش صحت و درستی داده هاست. اولین گام از فرآیند تشخیص تکرار، برآورد میزان شباهت فیلدهاست. الگوریتم های تطابق فیلد به روش های مبتنی بر کاراکتر، توکن و آوایی طبقه بندی شده است. در این مقاله الگوریتم هایی مانند TF-IDF, Q-grams, Jaro, Edit Distance و SotfTF-IDF برای برآورد میزان شباهت فیلدها معرفی شده است. سپس معیارهای ارزیابی که شامل Recall< Precision و F-measure می باشد بر روی الگوریتم ها انجام شده است. هر چه مقادیر معیارهای ارزیابی بالاتر باشد کارایی الگوریتم بهتر است. پس از مقایسه الگوریتم ها این نتیجه حاصل شده است که مقدار F-measure الگوریتم SoftTf-IDF بالاتر است. به این ترتیب بهترین کارایی را در بین الگوریتم ها داراست.

کلمات کلیدی:
پاکسازی داده ها، تشخیص رکورد تکراری، برآورد میزان شباهت فیلدها، معیارهای ارزیابی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/228259/