استخراج محتوای مفید صفحات وب بر اساس DOM و تکنیک ها

زیبا جعفری; محمد احمدی نیا

استخراج محتوای مفید صفحات وب بر اساس DOM و تکنیک ها

Publish place: پنجمین کنفرانس بین المللی مهندسی کامپیوتر ،برق و الکترونیک

Publish Year: 1395

نوع سند: مقاله کنفرانسی

زبان: Persian

This Paper With 17 Page And PDF and WORD Format Ready To Download

دریافت فایل کامل Paper

Certificate
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

https://civilica.com/doc/611386

شناسه ملی سند علمی:

NSOECE05_027

تاریخ نمایه سازی: 10 تیر 1396

Abstract:

شبکه جهانی وب به عنوان یک سرویس جهانی است که به طور گسترده ای توزیع شده است ویک مرکز سرویس اطلاعات جهانی برای اخبار، آگهی ها، اطلاعات مصرف کننده، مدیریت مالی، آموزش و پرورش، دولت، تجارت الکترونیک و خیلی از سرویس های اطلاعاتی دیگر است؛ بنابراین صفحات وب اینترنت به طور معمول شامل مقدار زیادی از محتوای بی ارزش نظیر تبلیغات، جستجو، فیلترکردن پانل، هدرها، پاصفحه ها، لینک های ناوبری، اطلاعات کپی رایت و... است. محتوای مفید، محتوای اصلی از صفحه وب است که اطلاعات مورد نیاز را به کاربر می دهد. بیشتر دریافت کننده ها و کاربران نهایی فقط محتوای مفید را جستجو می کنند و نیاز به استخراج محتوای مفید از صفحات وب دارند. برای استخراج محتوای مفید از صفحه وب به طور صحیح، محتوای مفید و محتوای بی ارزش از صفحه وب باید به وضوح شناخته شده باشند. برای تمایز بین محتوای مفید و بی ارزش در یک صفحه وب، نیاز به تقسم بندی صفحه وب به بلوک های معنایی است.دراین مقاله روش های اتوماتیک استخراج محتوای مفید وب از صفحات وب از جمله استخراج محتوا از طریق لینک ها، صفات، کلمات و مدل های یادگیری مورد بررسی قرار میگیرند.

Keywords:

وب کاوی , استخراج محتوای مفید , مدل شی سند , استانداردسازی صفحه وب , مدل یادگیری وب

Authors

زیبا جعفری

دانشگاه آزاد اسلامی واحد کرمان،ایران

محمد احمدی نیا

دانشگاه آزاد اسلامی واحد کرمان،ایران

مراجع و منابع این Paper:

لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :

Heuristic Approach for Web Content Extraction" International Journal of 4Aه ...
Erdinc Uzun &Hayri Volkan Agun & Tark Yerlikaya "A hybrid ...
Chaw Su Win&Mie Mc Su Thwin "Web Page Segmentation and ...
Extraction for Effective Information Retrieval" International Journal of Computer & ...
K Ajmera, K Deulkar :Web Content Extraction Techniques: A S ...
Madhura R. Kaddu1, Dr. R. B. Kuulkarni" A Review on ...
Ms. Pranjali G. Gondse1, Professor Anjali _ Raut :Main Content ...
R.Gunasundar & Dr.S .Karthikeyan _ STUDY OF CONTENT EXTRACT ION ...
Shobhit Srivastava & Mohd. Haroon & Abhishek Bajaj :Web Document ...
Yao Zhao, Yuanxin Zhao, Rongheng Lin, Hua Zou" Mining Service ...
C. Kohlschitter, P. Fankhauser, W. Nejdl, Boilerplate detection using shallow ...
Emilio Ferrara , Pasquale De Meo, Giacomo Fiumara , Robert ...
Yan Guo, Huifeng Tang, Linhai Song, Yu Wang, Guodong Ding ...
A.Laender, B. Ribeiro-Neto et.al, _ A brief survey of Web ...
Jon M, Kleinberg, ":Authoritative _ in a hyperlinked environment: In ...
Aanshi Bhardwaj & Veenu Mangat :A Novel Approach for Content ...
D.Insa, J.Silva and S.Tamarit, "Using the words/lea. ratio in the ...
S.Shen and H.Zhang, :Block-level links based content extrac tion" , ...
K Nethra and J Anitha" web content extraction using hybrid ...
. Ms. Shalaka B. Patil, Prof. Rushali A. Deshmukh _ ...

نمایش کامل مراجع