CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

از بین بردن نویز در صفحات وب با استفاده از الگوریتم پیشنهادی

عنوان مقاله: از بین بردن نویز در صفحات وب با استفاده از الگوریتم پیشنهادی
شناسه ملی مقاله: ICIRES01_026
منتشر شده در کنفرانس بین المللی نوآوری وتحقیق در علوم مهندسی(ICIRES ۲۰۱۸) در سال 1397
مشخصات نویسندگان مقاله:

سیدحسن مرتضوی زارچ - عضو هییت علمی گروه کامپیوتر دانشگاه میبد ، میبد ، ایران
مجید رفعتی فرد - عضو هییت علمی گروه برق آموزشکده فنی شهید مطهری تفت ، یزد ، ایران

خلاصه مقاله:
در این مقاله ، ما روش های متنوعی برای حذف نویز ، براساس مشاهدات پیشنهاد می کنیم. در یک وب سایت معین ، بلوک های نویزدار معمولا0 به اشتراک گذاری محتواها و سبک های نمایشی و یا ارایه ای رایج می پردازند ، در حالیکه محتوای اصلی بلوکها از صفحات اغلب متنوع هستند و درونشان مطالب واقعی و یا سبکهای نمایشی(ارایه ای) وجود دارد. براساس این مشاهدات ، ساختارهای درختی ، مثل درخت شیء سند DOM و سبک درخت STT و الگوریتم هایی مثل استدلال مبتی برمورد یا وضعیت CBRو الگوریتم اخیرا0 کمتر استفاده شده LRU وشبکه های عصبی مصنوعی ANN را برای رفع نویز پیشنهاد می کنیم. همچنین استدلال ها و الگوریتم هایی که در داده کاوی ، بخصوص کاربرد داده کاوی کمک می کنند را معرفی می کنیم تا با کشف و استخراج محتوای اصلی از بلوکهای متن از صفحه وب ، کار را برای کشف و رفع نویز راحت کند. در واقع این الگوریتم ها هر کدام به الگوریتم های کشف نویز کمک می کنند. بسیاری از تکنیکها در رشته های مختلف مانند بازیابی اطلاعاتIR و پردازش زبان طبیعی (NLP) نیز در این تحقیق استفاده می شود. روشهای پیشنهاد شده به ارزیابی داده با کاوش در صفحات وب می پردازد. نتایج تجربی نشان می دهد که روش حذف نویز قادر به بهبودی قابل توجهی در نتایج کاوش ما دارد.

کلمات کلیدی:
بازیابی اطلاعات ، کشف نویز ، وب کاوی ، مدل های نویز ، مدلهای داده

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/787342/