استخراج محتوای مفید صفحات وب بر اساس DOM و تکنیک ها
Publish place: پنجمین کنفرانس بین المللی مهندسی کامپیوتر ،برق و الکترونیک
Publish Year: 1395
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 398
This Paper With 17 Page And PDF and WORD Format Ready To Download
- Certificate
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
NSOECE05_027
تاریخ نمایه سازی: 10 تیر 1396
Abstract:
شبکه جهانی وب به عنوان یک سرویس جهانی است که به طور گسترده ای توزیع شده است ویک مرکز سرویس اطلاعات جهانی برای اخبار، آگهی ها، اطلاعات مصرف کننده، مدیریت مالی، آموزش و پرورش، دولت، تجارت الکترونیک و خیلی از سرویس های اطلاعاتی دیگر است؛ بنابراین صفحات وب اینترنت به طور معمول شامل مقدار زیادی از محتوای بی ارزش نظیر تبلیغات، جستجو، فیلترکردن پانل، هدرها، پاصفحه ها، لینک های ناوبری، اطلاعات کپی رایت و... است. محتوای مفید، محتوای اصلی از صفحه وب است که اطلاعات مورد نیاز را به کاربر می دهد. بیشتر دریافت کننده ها و کاربران نهایی فقط محتوای مفید را جستجو می کنند و نیاز به استخراج محتوای مفید از صفحات وب دارند. برای استخراج محتوای مفید از صفحه وب به طور صحیح، محتوای مفید و محتوای بی ارزش از صفحه وب باید به وضوح شناخته شده باشند. برای تمایز بین محتوای مفید و بی ارزش در یک صفحه وب، نیاز به تقسم بندی صفحه وب به بلوک های معنایی است.دراین مقاله روش های اتوماتیک استخراج محتوای مفید وب از صفحات وب از جمله استخراج محتوا از طریق لینک ها، صفات، کلمات و مدل های یادگیری مورد بررسی قرار میگیرند.
Keywords:
Authors
زیبا جعفری
دانشگاه آزاد اسلامی واحد کرمان،ایران
محمد احمدی نیا
دانشگاه آزاد اسلامی واحد کرمان،ایران
مراجع و منابع این Paper:
لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :