بهبود کارایی تعیین عنوان متون فارسی با استفاده از الگوریتم های دسته بندی

Publish Year: 1401
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 199

This Paper With 47 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

ICPCONF08_104

تاریخ نمایه سازی: 9 مهر 1401

Abstract:

با افزایش حجم اطلاعات متنی موجود در وب سایت ها و پایگاه های علمی لزوم ایجاد سامانه های خودکار برای دسته بندی اسناد بیش ازپیش آشکار می باشد. وجود اطلاعات با بارمعنایی کم در متون کارایی دسته بندها را کاهش می دهد. در این پایان نامه برای بالا بردن کاراییاستخراج متون مرتبط تر در حجم عظیمی از داده های متنی از روش خلاصه سازی متون برای استخراج ویژگی هایی که دارای بار معناییبالایی در متون هستند، استفاده شده است. در واقع در این پایان نامه تاثیر خلاصه سازی متون بر روی کارایی سیستم دسته بند موردبررسی قرار می گیرد. روش کار بدین صورت است که عملیات دسته بندی ابتدا بر روی متون بدون خلاصه صورت می گیرد و سپس بر رویمتون خلاصه شده اعمال می گردد. این کار در مقایسه با حالت بدون خلاصه سازی علاوه بر افزایش کارایی الگوریتم دسته بند؛ باعث کاهشحجم متون و زمان دسته بندی می گردد. در روش پیشنهادی ابتدا اسناد ورودی به سامانه خلاصه ساز داده می شوند و عملیات خلاصه سازیبر روی آنها صورت می گیرد، سپس اسناد خلاصه سازی شده به سیستم دسته بند وارد شده؛ عملیات دسته بندی بر روی آنها صور تمی گیرد. در ابتدا برای ارزیابی تاثیر خلاصه سازی برروی کارایی عملکرد دسته بند از ابزار خلاصه ساز ایجاز استفاده شده است. در عملیاتدسته بندی ابتدا بایستی یک پیش پردازش اولیه بر روی متون صورت بگیرد که در اینجا از معیار آنتروپی، حذف کلمات زائد فارسی وترکیبی از این دو روش برای مرحله پیش پردازش استفاده شده است. سپس برای انتخاب ویژگی از روش ICF-Uni و برای دسته بند ازالگوریتم KNN استفاده شده است. با توجه به نتایج بدست آمده مشاهده می شود که با استفاده از خلاصه سازی ویژگی های زائد در متن ازبین رفته و تنها ویژگی هایی که بار معنایی بالایی دارند در متن خلاصه شده باقی خواهند ماند. براین اساس میتوان ویژگی های موثرتریرا انتخاب نمود. در واقع خلاصه سازی متون علاوه بر اینکه باعث کاهش حجم دیتاست ورودی می شود، با کاهش کلمات فاقد بارمعنایی،باعث افزایش کارایی دسته بند نیز می گردد. در واقع با کاهش حجم اسناد مورد پردازش زمان اجرای الگوریتم دسته بند نیز کاهش می یابد.

Authors

صبا فتحی پور

کارشناسی ارشد مهندسی کامپیوتر گرایش نرم افزار، موسسه آموزش عالی پویش قم

علیرضا نمازی

استاد گروه مهندسی کامپیوتر، دانشگاه قم، قم