CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

ارائه روشی برای استخراج کلمات کلیدی در زبان فارسی

عنوان مقاله: ارائه روشی برای استخراج کلمات کلیدی در زبان فارسی
شناسه ملی مقاله: ITCC02_273
منتشر شده در دومین کنفرانس بین المللی و سومین همایش ملی کاربرد فناوری های نوین در علوم مهندسی در سال 1394
مشخصات نویسندگان مقاله:

معین معادی - کارشناس ارشد مهندسی فناوری اطلاعات، دانشگاه پویندگان دانش چالوس
کاظم فولادی قلعه - دانشکده مهندسی برق و کامپیوتر، پردیس دانشکده های فنی، دانشگاه تهران

خلاصه مقاله:
کلمه (یا واژه) واحد سازنده ی متن است و هر کلمه تشکل یافته از واج به عنوان کوچک ترین بخش از نوشتار است. تشخیص نقش و اهمیت کلمه و رابطه ی بین کلمات، شاخص های مهمی در کاوش متن می باشند که کلید حل مسائل مشخصی در پردازش متن است. از این رو در تمامی سیستم های پردازش اطلاعات، کلمه و روابط بین کلمات، پردازش می شود. در این پژوهش روشی جدید برای استخراج کلمات کلیدی با استفاده از ویژگی های آماری و بردار رخداد کلمه در هر متن، ارائه شده است. این روش برای زبان فارسی بر روی متن منفرد و بدون درنظر گرفتن دامنه ی موضوعی متون اجرا می شود. این پیاده سازی با مجموعه دده ی تشکیل شده برای این پژوهش که دربرگیرنده ی 100 مقاله ی معتبر فارسی است، ارزیابی و با کلمات کلیدی مشخص شده توسط نویسنده هر مقاله مقایسه شده است و معیارهای بازیابی و دقت محاسبه شده برای کل مجموعه داده نتایج قابل توجهی را نشان می دهد.

کلمات کلیدی:
کلمات کلیدی، کلید واژه ها، متن کاوی، ویژگی آماری

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/501901/