محتواکاوی وب عمیق

Publish Year: 1387
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 3,041

This Paper With 7 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

IDMC02_043

تاریخ نمایه سازی: 14 فروردین 1388

Abstract:

وب رسانهای است برای رسیدن به اطلاعات زیاد و متنوعی که در سایتهای مختلف در شبکه گسترده جهانی ذخیره شده است. رشد گسترده وب مسبب رشد ثابت اطلاعات شده است که با خود چندین مشکل را به همراه دارد؛ بدست آوردن اطلاعات مرتبط به هم، استخراج دانش مفید و یادگیری در مورد عملکردهای مشتریان یا کاربران نمونهای از این مشکلات است. وبکاوی سعی دارد که این مشکلات را برطرف سازد. به طور کلی، وبکاوی از تکنیکهای دادهکاوی استفاده میکند تا به طور خودکار اطلاعات را از مستندات شبکه گسترده جهانی و سرویسهای آن کشف و استخراج نماید. وبکاوی به سه شاخه محتواکاوی وب، ساختارکاوی وب و کاربردکاوی وب تقسیم میشود که هر کدام در تلاشند از داده موجود در وب به اطلاعات و دانش ویژهای برسند. روشهای کاوشی که در محتواکاوی وب موجود است بیشتر روی استخراج اطلاعات و یکپارچهسازی آنها متمرکز است. این روشها معمولا برمبنای wrapper های ساده هستند که فقط قادر به جمعآوری اطلاعات ساختیافته میباشند. اخیرا تلاشهایی در جهت استفاده از تکنیکهای NLP شده است که توسط آنها میتوان اطلاعات مفید ناشناختهای که از قبل وجود داشته است و به روشهای معمولی قابل بازیابی نبوده را از دادههای جمع- آوری شده کشف کرد. اغلب روشهای موجود روی تحلیل وبسایتهای ایستا متمرکز شدهاند و نمیتوانند با وبسایتهایی که دائم در حال تغییر هستند، روبهرو شوند. در این مقاله سیستمی ارائه شده است که با خزیدن در طول وب و رفتن از یک ابرمتن به ابرمتن دیگر، وب عمیق را محتواکاوی میکند و پس از استخراج اطلاعات آنها، با استفاده از روش دادهکاویکلاسترینگ هر صفحه وب را در یک دامنه موضوعی خاص قرار میدهد. پرسوجوی کاربر که در یک دامنه موضوعی خاص وارد شده است در کلاستر منطبق با آن، در واسطهای پرسوجوی متفاوت تطبیق داده میشود و واسطی که بیشترین تطبیق را با پرسوجوی کاربر دارد به عنوان بهترین واسط پرسوجو برای پاسخگویی به پرسوجوی کاربر انتخاب میشود. به این ترتیب اطلاعات درخواستی کاربر با استفاده از پرسوجوی انتخاب شده، استخراج و در اختیار او قرار میگیرد