A Focused Crawler Based on Topic Mining Approach

Publish Year: 1394
نوع سند: مقاله کنفرانسی
زبان: English
View: 554

This Paper With 5 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

CITCONF03_263

تاریخ نمایه سازی: 12 تیر 1395

Abstract:

A focused crawler is a crawler that returns relevant pages related to a specific topic. This kind of crawler hasadvantages over a general crawler because of low cost and efficiency. In this paper, we present and implement asimple, focused crawler that works based on topic mining approach. This focused crawler, starts from specific seeds,calculates the similarity of each page with a specific page that we have given as our initial topic. With thesecalculations that are based on vectors dot products, we sort all of the pages based on this score, and therefore at theend we have a set of relevant pages to the specific page.

Authors

Alireza Asgharian

Computer Department of Isfahan University

Amir Savari

Computer Department of Isfahan University

مراجع و منابع این Paper:

لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :
  • S. Chakrabarti, M. van den Berg, B. Dom, "Focused crawling: ...
  • P.M.E. De Bra, R.D.J. Post, "Information Retrieval in the World ...
  • S. Ganesh, M. Jayaraj, V. Kalyan, S. Murthy and G. ...
  • S. Bri, L. Page, "The anatomy of large-scale hypertext Web ...
  • Jon M. Kleinberg, "Authoritative Sources in a Hyperlinked Environment", Journal ...
  • .J. Cho, H. Garcia-Molina, and L. Page, "Efficient crawling through ...
  • Brants, Thorsten, Francine Chen, and Ioannis Tsochantaridi, "Topic-based document segmentation ...
  • McLachlan, Geoffrey, and Thriyambakam Krishnan. The EM algorithm and extension, ...
  • نمایش کامل مراجع