ارائه روشی بهبود یافته جهت حذف محتویات غیرمفید و طبقه بندی مطالب وبدر جهت بهبود کاوش

Publish Year: 1392
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 645

This Paper With 10 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

EME02_965

تاریخ نمایه سازی: 14 شهریور 1393

Abstract:

امروزه اغلب افراد برای جستجوی مطالب از اینترنت و به خصوص موتورهای جستجو استفاده می نمایند. اما مسئله قابل توجه این است که در بعضی موارد نتیجه ارائه شده توسط موتور های جستجو با درخواست کاربران مرتبط نمی باشد. یکی از موارد تاثیر گذار، وجود نویزهای متعدد درون صفحات وب می باشد که تاثیر منفی بر روی فرآیند کاوش محتویات وب خواهند گذاشت. به همین دلیل راه حل ارائه شده به این صورت می باشد که قبل از اینکه بر روی صفحات کاوش صورت پذیرد یک مرحله پیش پردازش انجام شود و نویزهای موجود در صفحات شناسایی و در نهایت حذف گردند.مراحل این فرآیند به این صورت است که ابتدا ساختار صفحات وب به بلاک هایی تقسیم بندی می شوند. سپس برای کشف بلاک های نویزدار از مجموعه ای از ویژگی های بصری بلاک همانند مکان بلاک، تفاوت سبک و نسبت لینک و غیره استفاده می شود. برای هر بلاک این معیارها بر اساس ضوابط تعریف شده محاسبه می شود و سپس بر اساس قوانین تعریف شده هر کدام از بلاک ها ارزیابی می شوند و سپس بلاک نویزدار شناسایی و حذف می گردد. در نهایت عملیات طبقه بندی مطالب بر اساس ساختار صفحه و محاسبه میزان اهمیت و اولویت صفحه انجام می شود. نتایج حاصل از آزمایش های متعدد نشان دهنده این موضوع است که روش پیشنهاد شده از کارایی و دقت بالایی برخوردار می باشد که بر اساس آزمایش های صورت گرفته این مقدار برابر با 97/5% می باشد.

Authors

جعفر توسلی

دانشجوی کارشناسی ارشد، موسسه آموزش عالی صنعتی فولاد

شهره آجودانیان

عضو هیات علمی، گروه کامپیوتر، دانشگاه آزاد اسلامی واحد نجف آباد، روش های رسمی در مهندسی نرم افزار