CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

تصحیح خودکار داده ها مبتنی بر وابستگی تابعی و سیستم یادگیری مرکب

عنوان مقاله: تصحیح خودکار داده ها مبتنی بر وابستگی تابعی و سیستم یادگیری مرکب
شناسه ملی مقاله: JR_TJEE-48-2_029
منتشر شده در شماره 2 دوره 48 فصل در سال 1397
مشخصات نویسندگان مقاله:

مهدیه عطاییان - تهران - دانشگاه تربیت دبیر شهید رجایی - دانشکده مهندسی کامپیوتر
نگین دانشپور - تهران - دانشگاه تربیت دبیر شهید رجایی - دانشکده مهندسی کامپیوتر

خلاصه مقاله:
صحت داده ها یکی از مهم ترین ابعاد کیفیت داده ها به شمارمی رود. با توجه به حجم بالای منابع داده ای نیاز به روش هایی خودکار وجود دارد. در این مقاله راهکاری خودکار برای تصحیح داده هایی با انواع داده ای متفاوت ارائه شده است. در این راهکار در ابتدا رکوردهایی که احتمالا حاوی ویژگی خطا است با استفاده از وابستگی تابعی شناسایی می گردد، بدین صورت که رکوردی که به ازای یک وابستگی تابعی با بیش از  از رکوردها در تناقض باشد، مشکوک به خطا است. سپس به ازای هر ویژگی از منبع داده مورد بررسی، سیستم یادگیری مرکب ساخته می شود. سیستم یادگیری مرکب از سه طبقه بند بیز، درخت تصمیم و شبکه عصبی MLP تشکیل شده است و دارای استراتژی ترکیب رای اکثریت است. سیستم یادگیری مرکب به وسیله رکوردهای صحیح شناسایی شده مورد آموزش قرارداده می شود. پس از آموزش طبقه بندها، هر ویژگی غلط به عنوان کلاس هدف سیستم یادگیری مرکب قرارمی گیرد و مقداری برای آن پیش بینی می گردد. روش پیشنهادی قادراست چندین خطا در یک رکورد را شناسایی نماید. آزمایش ها نشان می دهد که true negative rate الگوریتم پیشنهادی در بخش تشخیص خطا به طور متوسط 93.7% و در بخش تصحیح خطا به طور متوسط 90.6% است. هم چنین آزمایش ها نشان می دهد که میزان پارامترهای ارزیابی در الگوریتم پیشنهادی در مقایسه با دو الگوریتم مشابه مبتنی بر وابستگی تابعی بهبود داشته است.

کلمات کلیدی:
تصحیح داده, تشخیص خطا, وابستگی تابعی, سیستم یادگیری مرکب

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/890168/