CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

ارایه روشی برای استخراج خودکار عبارات کلیدی از اخبار وب پارسی

عنوان مقاله: ارایه روشی برای استخراج خودکار عبارات کلیدی از اخبار وب پارسی
شناسه ملی مقاله: JR_TJEE-47-3_005
منتشر شده در شماره 3 دوره 47 فصل پاییز در سال 1396
مشخصات نویسندگان مقاله:

مریم باسره - دانشجوی کارشناس ارشددانشکده مهندسی کامپیوتر - پردیس فنی و مهندسی - دانشگاه یزد - یزد - ایران
ولی درهمی - دانشیاردانشکده مهندسی کامپیوتر - پردیس فنی و مهندسی - دانشگاه یزد - یزد - ایران
سجاد ظریف زاده - استادیاردانشکده مهندسی کامپیوتر - پردیس فنی و مهندسی - دانشگاه یزد - یزد - ایران

خلاصه مقاله:
دادگان متنی و از آن جمله متون خبری از حوزه های مهم بازیابی اطلاعات به شمار میرود و استخراج اطلاعات از آنها ضروری است. این امر با استخراج عبارات کلیدی اسناد که دربردارنده محتوای اصلی متن است، صورت می گیرد. در این پژوهش، راهکاری سه مرحلهای جهت استخراج عبارات کلیدی از صفحات خبری وب پارسی، با ترکیب شیوه های زبانشناختی، یادگیری با ناظر، ابتکاری و تعداد نسبتا جامعی ازشیوه های آماری ارایه می شود. همچنین، یک مجموعه داده خبری و لیستی از عبارات توقفی خبری ایجاد می گردد. در پژوهش حاضر، با توجه به ویژگیهای دادگان، از دسته بند جنگل تصادفی استفاده و عملکرد خوب آن به کمک نتایج آزمایشها ثابت میشود به علاوه استفاده ازامتیاز تعلق گرفته به عبارات توسط دسته بند جهت ایجادلیستی مرتب ازعبارات برای دسته بندی به جای استفاده ازخروجی دسته بند پیشنهاد میشود نتایج نشان دهنده دقت قابل قبول سیستم ارایه شده است

کلمات کلیدی:
عبارات کلیدی، استخراج عبارات کلیدی، اسناد خبری، شیوه های آماری، یادگیری با ناظر، متن کاوی، بازیابی اطلاعات

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/722558/