تعیین بهترین تابع تشابه با استفاده از درصد تشخیص
Publish place: 1st National Innovation Conference on Computer Engineering and Information Technology
Publish Year: 1392
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 762
This Paper With 6 Page And PDF Format Ready To Download
- Certificate
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
CEIT01_219
تاریخ نمایه سازی: 9 تیر 1393
Abstract:
زمانی که پایگاه داده ها شامل رکوردهایی هستند که از منابع داده ای مختلف جمع آوری شده اند، ممکن است این رکوردها شامل مقادیری باشند که به موجودیت یکسانی اشاره می کنند اما دارای نمایش های مختلفی باشند. بنابر این برای افزایش دقت و صحت داده ها، از پاکسازی داده ها استفاده می شود. عنصر اساسی پاکسازی داده ها، شناسایی رکورد تکراری می باشد. تشخیص رکورد تکراری، فرآیند شناسایی جفت رکوردی است که نشان دهنده یک موجودیت یکسان در پایگاه داده می باشد. الگوریتم های بسیاری در این زمینه برای تطابق فیلد و رکود مطرح شده است. در این مقاله بعضی از الگوریتم های تطابق فیلد بیان شده است. بهترین الگوریتم با استفاده از درصد تشخیص تعیین شده است. هرچه درصد تشخیص بالاتر باشد، تابع عملکرد بهتری دارد. این روش بر روی مجموعه داده restaurant اجرا شده است. نتایج اجرای این روش نشان می دهد که برای فیلد name تابع Q-gram با مقدار 0/942105 درصد تشخیص بالاتری دارد و بهترین تابع برای این فیلد می باشد. برای فیلد addr تابع Jaccard با مقدار 0/942105 بهترین تابع است. برای فیلد city سه تابع Edit Distance, LCS, Q-gram با مقدار 0/847368 عملکرد بهتری دارند.
Keywords:
Authors
مینا قاری زاده بیرق
دانشجوی کارشناسی ارشد، گروه مهندسی کامپیوتر، دانشگاه آزاد اسلامی واحد شبستر، شبستر
علی فرزان
عضو هیئت علمی، گروه مهندسی کامپیوتر، دانشگاه آزاد اسلامی واحد شبستر، شبستر
شاهین اکبرپور
عضو هیئت علمی، گروه مهندسی کامپیوتر، دانشگاه آزاد اسلامی واحد شبستر، شبستر
مراجع و منابع این Paper:
لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :