استفاده از تکنیک خوشه بندی در جداسازی رکوردهای داده صفحات وب نیمه ساختیافته

Publish Year: 1389
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 1,853

This Paper With 10 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

IDMC04_101

تاریخ نمایه سازی: 15 دی 1389

Abstract:

امروزه داده های بسیار زیادی از انواع مختلف برروی اینترنت قرا ردارد کاربران مختلف اطلاعات مورد نیاز خود را در اینترنت جستجو می کنند بهعلت ناهمگنی و رشد سریع تولید صفحات وب، روشهای قدیمی جستجوی اطلاعات مانند مرور مرحله به مرحله صفحات و دنبال کردن فراپیوندها یا استفاده از موتورهای جستجو کارایی چندانی ندارند. از این رو شاخه جدیدی از علم کامپیوتر به نام استخراج اطلاعات مطرح شده است در استخراج اطلاعات از الگوریتمهای هوشمند در جهت استخراج داده های مورد نیاز کاربران و قرار دادن این اطلاعات در یک ساختار مناسب استفاده می شود بطوریکه این داده قابلیت پرس و جو را داشته باشد در اکثر سیستم های استخراج اطلاعات از صفحات وب از ساختار صفحه وب به عنوان مثال برچسبهای HTML درجهت پیدا کردن اطلاعات مفید صفحه وب استفاده می شود دراین مقاله الگوریتمی مطرح شده که به کمک یک هستان شناسی و با استفاده از ساختار صفحه وب و ازمون 2% ناحیه اصلی صفحه وب که اطلاعات مورد نظر در آن وجود دارد را تشخیص داده می شود. بعد از تشخیص ناحیه اصلی رکوردهای موجوددر ناحیه اصلی صفحه وب با استفاده از یک الگوریتم خوشه بندی تشخیص داده می شوند.

Keywords:

رکورد داده , هستان شناسی , صفحه وب نیمه ساختیافته , خوشه بندی