ارایه روشی برای استخراج خودکار عبارات کلیدی از اخبار وب پارسی

Publish Year: 1396
نوع سند: مقاله ژورنالی
زبان: Persian
View: 486

This Paper With 10 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

JR_TJEE-47-3_005

تاریخ نمایه سازی: 15 اردیبهشت 1397

Abstract:

دادگان متنی و از آن جمله متون خبری از حوزه های مهم بازیابی اطلاعات به شمار میرود و استخراج اطلاعات از آنها ضروری است. این امر با استخراج عبارات کلیدی اسناد که دربردارنده محتوای اصلی متن است، صورت می گیرد. در این پژوهش، راهکاری سه مرحلهای جهت استخراج عبارات کلیدی از صفحات خبری وب پارسی، با ترکیب شیوه های زبانشناختی، یادگیری با ناظر، ابتکاری و تعداد نسبتا جامعی ازشیوه های آماری ارایه می شود. همچنین، یک مجموعه داده خبری و لیستی از عبارات توقفی خبری ایجاد می گردد. در پژوهش حاضر، با توجه به ویژگیهای دادگان، از دسته بند جنگل تصادفی استفاده و عملکرد خوب آن به کمک نتایج آزمایشها ثابت میشود به علاوه استفاده ازامتیاز تعلق گرفته به عبارات توسط دسته بند جهت ایجادلیستی مرتب ازعبارات برای دسته بندی به جای استفاده ازخروجی دسته بند پیشنهاد میشود نتایج نشان دهنده دقت قابل قبول سیستم ارایه شده است

Authors

مریم باسره

دانشجوی کارشناس ارشددانشکده مهندسی کامپیوتر - پردیس فنی و مهندسی - دانشگاه یزد - یزد - ایران

ولی درهمی

دانشیاردانشکده مهندسی کامپیوتر - پردیس فنی و مهندسی - دانشگاه یزد - یزد - ایران

سجاد ظریف زاده

استادیاردانشکده مهندسی کامپیوتر - پردیس فنی و مهندسی - دانشگاه یزد - یزد - ایران