استخراج خودکار محتوای مفید صفحات وب با استفاده از آتوماهاتای یادگیر

Publish Year: 1395
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 780

This Paper With 15 Page And PDF and WORD Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

CITCOMP01_171

تاریخ نمایه سازی: 16 شهریور 1395

Abstract:

با توسعه سریع اینترنت، منابع اطلاعاتی متعددی به صورت صفحات HTML در شبکه جهانی وب منتشر شده اند. با این حال بسیاری از اطلاعات زائد و بی ربط در اینترنت وجود دارد از قبیل پانل ناوبری، جدول محتوا، تبلیغات، اظهارات حق انحصاری، کاتالوگ خدمات، سیاست حفظ حریم خصوصی و غیره. درنتیجه محتوای صفحات وب به دو صورت محتوای مفید (اصلی) و غیرمفید (غیر اصلی) درنظرگرفته شده اند. بیشتر دریافت کننده ها وکاربران نهایی فقط محتوای مفید را جستجو می کنند و نیاز به استخراج محتوای مفید از صفحات وب دارند که باید مشخص باشند. محتوای مفید، محتوای اصلی از صفحه وب است که بسیاری از اطلاعات مورد نیاز را به کاربر می دهد .در این مقاله، روشی جهت استخراج محتوای مفید صفحات وب پیشنهاد شده که ابتدا یک صفحه وب را دریافت می کند و بعد از استاندارد نمودن آن صفحه وب، درخت DOM را ایجاد می کند سپس مسیرهای درخت DOM از ریشه تا برگ استخراج می شوند. بعد از آن معادل با هر مسیر، یک اتوماتای یادگیر تصادفی تعیین می شود و به کمک آن وضعیت هربلوک جهت مفید بودن یا نبودن در یک فرآیند تکراری مشخص می شوند. درنهایت بلوک های حاوی محتوای مفید صفحات وب استخراج می شوند. این مدل می تواند نتایج موتورهای جستجو، تلخیص محتوای وب و برنامه های کاربردی داده کاوی را بالا ببرد. یک راه حل مفید خاص برای استخراج محتوای وب است. راه حل ارائه شده بر روی یک مجموعه داده ویکی اعمال گردیده است ونتایج حاصل ، بیانگر دقت و فراخوانی به ترتیب 97.2% و 98.1% می باشد.

Authors

زیبا جعفری

دانشگاه آزاد اسلامی واحد کرمان،ایران

محمد احمدی نیا

دانشگاه آزاد اسلامی واحد کرمان،ایران

مراجع و منابع این Paper:

لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :
  • Chaw Su Win&Mie Mie Su Thwin "Web Page Segmentation and ...
  • _ Uzun &Hayri Volkan Agun & Tark Yerlikaya "A hybrid ...
  • R.Gunasundar & Dr. S.Karthikeyan _ STUDY GOF CONTENT EXTRAC TION ...
  • Ms. Pranjali G. Gondse1, Professor Anjali B. Raut" Main Content ...
  • Narendra K. S., Thathachar M A. L.; "Learning automata: An ...
  • Narendra K.S., Thathachar M A. L. "Learning automata a survey"; ...
  • Mance, E., and Stephanie, S., H., _ _ inforcement learming: ...
  • Neha Gupta &Dr. Saba Hilal _ Heuristic Approach for Web ...
  • L akshmivarahar S., Thathachar M A. L.; "Absolutely expedient learning ...
  • Mars, P., Chen, I. R., and Nambiar, R., Learning algorithms ...
  • applications in signal processing, control and c ommuni cations, CRC ...
  • Thathachar M A. L., Bhaskar R. H.; "Learning automata with ...
  • Yan Guo, Huifeng Tang, Linhai Song, Yu Wang, Guodong Ding ...
  • Shobhit Srivastava & Mohd. Haroon & Abhishek Bajaj _ Document ...
  • Neha Gupta &Dr. Saba Hilal _ Heuristic Approach for Web ...
  • A. Laender, B. Ribeiro-Neto et.al, _ A brief survey of ...
  • Aanshi Bhardwaj & Veenu Mangat ":A Novel Approach for Content ...
  • D.Insa, J.Silva and S.Tamarit, "Using the words/leafs ratio in the ...
  • S.Shen and H.Zhang, "Block-level links based content extraction" , Fourth ...
  • K Ajmera, K Deulkar _ Content Extraction Techniques: A survey ...
  • [2] D. Gibson, K. Punera, and A. Tomkins. The volume ...
  • International Conference On World Wide Web, pages 830 _ 839, ...
  • [3] Baohua Liao, Bo Cheng, Chuanchang Liu, Junli angCheng, Gang ...
  • Ms. Shalaka B. Patil, Prof. Rushali A. Deshmukh " Enhancing ...
  • Madhura R. Kaddu , Dr.R.B .Kulkarni" To Extract Informative Content ...
  • K Nethra and J Anitha" web content extraction using hybrid ...
  • http ://www. search- engines-book. c om/c ollections/ ...
  • نمایش کامل مراجع