بهبود سرعت تشخیص رکوردهای تکراری به وسیله کاهش تعداد مقایسه رکوردها با روشهای بلوک بندی

Publish Year: 1391
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 683

This Paper With 8 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

NCCSE01_011

تاریخ نمایه سازی: 9 بهمن 1392

Abstract:

پیوند رکوردها، یکی از مسائل مهمی است که برای تشخیص و حذف داده های تکراری مورد استفاده قرار می گیرد. مشکل حاصل از پیوند رکوردها هزینه بالای محاسباتی می باشد، زیرا تعداد زیادی از رکوردها باید مورد مقایسه قرار بگیرند. یکی دیگر از عواملی که می تواند منجر به افزایش هزینه محاسبه شود، هزینه مورد نیاز برای یک مقایسه است. با توجه به این که هر مقایسه رکورد نیاز به مقایسه فیلدهای متعددی دارد، بنابراین مقایسه رکورد هزینه زیادی می تواند داشته باشد. در این مقاله بهبود سرعت تشخیص تکرار با روش های موجود در بلوک بندی برای به حداقل رساندن تعداد مقایسه رکوردها مورد بررسی قرار گرفته است. با توجه به معیارهای ارزیابی تعریف شده F-measure هر یک از الگوریتم های مذکور محاسبه شده است. با توجه به نتایج به دست آمده، روش های bigram- indexing و Clustering and Canopy به طور قابل توجهی بهتر از بلوک بندی بر اساس کلید و SNM با پنجره ای با اندازه پویا می باشد.

Authors

رعنا موسی زاده

دانشجوی کارشناسی ارشد نرم افزار دانشگاه آزاد اسلامی واحد شبستر

محمدرضا فیضی درخشی

عضو هیئت علمی گروه کامپیوتر دانشگاه تبریز

مراجع و منابع این Paper:

لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :
  • _ Panagiotis, G., Vassilios, S., "Duplicate Record Detection: A Survey", ...
  • Kopcke, Hanna., Rahm, Erhard., "Framevvorke for entity matching: A comparison", ...
  • Jebamalar Tamilselvi J., Saravanan V., "Token-based method of blocking records ...
  • Draisbach, Uwe ., Naumapn, Felix., "A Comparison and Generalization of ...
  • Patrick Lehti, Unsupervised Duplicate Detectionl Using Sample Non-Dup licates, Vom ...
  • Lee, Mong Li., Lu, Hongjun - , Ling, Tok Wang., ...
  • Draisbach, Uwe., Naumann, Felix! , "A Generalization of Blocking and ...
  • Baxter, Rohan., Christen, Peter., Churches, Tim., "A Comparison of Fast ...
  • I [9] LI, Baodong., dong, Yongquan., zhang, Yongxin., liu, Donglan., ...
  • Low, Wai Lup., Lee, Mong Li., Ling, Tok Wang -, ...
  • Gu, Lifang., Baxter, Rohan., "Adaptive Filtering for Efficient Record Linkage", ...
  • نمایش کامل مراجع