استفاده از شبکه های عصبی CC4 برای رده بندی اسناد فارسی

Publish Year: 1387
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 1,441

This Paper With 7 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

IDMC02_072

تاریخ نمایه سازی: 14 فروردین 1388

Abstract:

در این مقاله رده بندی اسناد و متون فارسی با استفاده از شبکه عصبی CC4 پیشنهاد شده است. CC4 یک نوع از الگوریتم یادگیری رده بندی کناره ای برای شبکه های سه لایه رو به جلو می باشد. از مهمترین مزایای استفاده از این شبکه ها می توان به غیرتکراری بودن این نوع شبکه در مرحله آموزش اشاره کرد. افزایشی بودن مرحله آموزش مزیت دیگری است که استفاده از این شبکه را برای رده بندی اسناد حجیم فارسی مناسب می کند. در واقع اضافه نمودن داده های آموزشی جدید به شبکه CC4 بهسادگی امکان پذیر است. همچنین، اگر مقیاس بین فایل های متنی نزدیک به هم باشد، شبکه عصبی CC4 نتایج رده بندی بهتری را ارائه می دهد. در این مقاله ابتدا پیش پردازش های ریشه یابی کلمات و حذف کلمات عمومی 1 انجام می گیرد. سپس ویژگی های آماری برای کلمات مختلف محاسبه شده و از یک روش مبتنی بر فراوانی کلمات برای نمایه گذاری اسناد استفاده می شود که اسناد با انداره های متفاوت را به یک فضای K بعدی با اندازه ثابت نگاشت می کند. با اعمال استخراج ویژگی های مناسب و تغییراتی که در این الگوریتم اعمال کرده ایم، توانسته ایم دقت این رد ه بند را روی متون فارسی بهبود دهیم. برای آزمایش این روش از مجموعه اخبار خبرگزاری ایسنا استفاده شده است. این پیکره شامل تعداد 9000 سند فارسی می باشد. رده های موجود در این پیکره شامل سیاسی، اجتماعی، فرهنگی و ورزشی است. با به کارگیری روش پیشنهادی ، اسناد پیکره با دقت حدود 90 % رده بندی شدند