استخراج کلمات کلیدی بصورت مستقل از زبان
Publish place: سومین کنگره بین المللی کامپیوتر، برق و مخابرات
Publish Year: 1395
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 744
This Paper With 12 Page And PDF Format Ready To Download
- Certificate
- من نویسنده این مقاله هستم
این Paper در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ITCC03_102
تاریخ نمایه سازی: 6 اردیبهشت 1396
Abstract:
بحث اطلاعات، بازیابی و مدیریت آن از منظر اقتصادی، اجتماعی، سیاسی و امنیتی اهمیت بسیار زیادی برای کشورهایمختلف و کمپانی های بزرگ حوزه اطلاعات و فن آوری اطلاعات دارند. اولین گام در این حوزه، شناسایی و استخراج کلمات کلیدی از متون می باشد. یکی از چالش های عمده بر سر راه این امر، وجود زبان های بسیار متنوع برای اطلاعات متنی و وابستگی روش های موجود استخراج کلمات کلیدی به نوع زبان و ساختار کلامی آن زبان خاص می باشد. لذا هدف این پژوهش، طراحی الگوریتمی مستقل از زبان به منظور استخراج کلمات کلیدی می باشد. از این رو با تمرکز روی خاصیت تکرار کلمات کلیدی در هر متن و نسبت تکرار آن در سایر متون و با کمک از الگوریتم TF_IDF این امر انجام شده است و در نهایت میانگین بیشترین تکرار به عنوان کلمه کلیدی انتخاب می گردد. عملکرد الگوریتم پیشنهادی نیز توسط معیار نرخ دقت تشخیص مورد ارزیابی قرار گرفته است. اگرچه کارهای مشابه در این زمینه به صورت مستقل از زبان وجود نداشته ولی مقایسه عملکرد با کارهای نزدیک در حوزه استخراج کلمات کلیدی وابسته به زبان، حکایت از عملکرد قابل قبول الگوریتم پیشنهادی را دارد. لازم به ذکر است که این الگوریتم با الگوریتم مبتنیبر گراف که فقط برای زبان انگلیسی پیاده سازی شده مقایسه گردیده است، که نرخ دقت کلی الگوریتم پیشنهادی83.34 درصد بوده است.
Keywords:
Authors
بهاره هاشم زاده
مربی گروه کامپیوتر و فناوری اطلاعات، دانشگاه تربت حیدریه
علی ماروسی
استادیار گروه کامپیوتر و فناوری اطلاعات، دانشگاه تربت حیدریه
مراجع و منابع این Paper:
لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :