استخراج محتوای وب با استفاده از وزن دهی و قوانین متنی Extract web content by using weighting and textual rules

مهدی محمدی; محمدجواد کارگر

استخراج محتوای وب با استفاده از وزن دهی و قوانین متنی Extract web content by using weighting and textual rules

Publish place: 2nd International Conference on Computer Engineering and Information Technology

Publish Year: 1396

Type: Conference paper

Language: Persian

This Paper With 9 Page And PDF and WORD Format Ready To Download

DOWNLOAD Paper

Certificate
I'm the author of the paper

Export:

Link to this Paper:

https://civilica.com/doc/696224

Document National Code:

CITCOMP02_283

Index date: 26 February 2018

استخراج محتوای وب با استفاده از وزن دهی و قوانین متنی Extract web content by using weighting and textual rules abstract

امروزه دستیابی به داده ، اشتراک داده ، استخراج اطلاعات از داده و استفاده از این اطلاعات ، به امری حیاتی برای کارشناسان فناوری تبدیل شده است. با توجه به رشد انفجاری اینترنت و گسترش و افزایش چشم گیر صفحات وب و همچنین تولید منابع اطلاعاتی بزرگ در وب سایت ها و نیاز بشری به اطلاعات جدید و بروز، داده کاوی در وب به یکی از مهمترین و محبوبترین تکنیک ها جهت کشف اطلاعات و دانش مورد توجه قرار گرفته است. با این حال بسیاری از اطلاعات زاید و بی ربط از قبیل پانل ناوبری، جدول محتوا، تبلیغات، کاتالوگ خدمات، منوها و غیره... در این صفحات وجود دارد. درنتیجه محتوای صفحات وب به دو صورت محتوای مفید (اصلی) و غیرمفید(غیر اصلی) درنظرگرفته شده اند. بیشتر دریافت کننده ها وکاربران نهایی فقط محتوای مفید را جستجو می کند. دراین روش پس از استاندارد سازی صفحه وب و ایجاد درخت DOM، بهترین گره فرزند گره والد طبق الگوریتم وزن دهی انتخاب ، و سپس بهترین مسیر انتخاب و در نهایت بهترین گره نمونه انتخاب می شود و در آخر ویژگی های درخت نمونه استخراج و سپس با گره های همنام گره نمونه تطبیق داده می شود و به عنوان محتوا نمایش داده می شوند. . راه حل ارایه شده بر روی چندین مجموعه داده اعمال گردیده است ونتایج حاصل ، بیانگر دقت و فراخوانی و فاکتورF به ترتیب 992/0 و984/0 و 987/0 می باشد.

استخراج محتوای وب با استفاده از وزن دهی و قوانین متنی Extract web content by using weighting and textual rules Keywords:

وب کاوی , استخراج محتوا , وزن دهی , استخراج محتوا از ساختار

استخراج محتوای وب با استفاده از وزن دهی و قوانین متنی Extract web content by using weighting and textual rules authors

مهدی محمدی

دانشجوی کارشناسی ارشد مهندسی نرم افزار گروه کامپیوتر ، دانشکده فنی مهندسی ، واحد میبد ، دانشگاه آزاد اسلامی ، یزد ، ایران

محمدجواد کارگر

استادیار گروه مهندسی کامپیوتر ، دانشگاه علم و فرهنگ ، تهران ، ایران