تشخیص موضوعات پنهان در مقالات علمی فارسی

Publish Year: 1400
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 335

This Paper With 11 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

IECECONF01_018

تاریخ نمایه سازی: 8 آبان 1400

Abstract:

در سال های اخیر با ظهور وب، حجم داده های متنی افزایش چشم گیری داشته است که این امر منجر به دشواری و پیچیدگی هایی در بدست آوردن اطلاعات دلخواه و مرتبط میان حجم بسیار زیادی از این داده ها شده است. مقالات علمی حجم بسیار زیادی از این داده های متنی را تشکیل می دهند که بدست آوردن مقالات مرتبط و دلخواه از جمله نیازهای ضروری پژوهشگران می باشد. بنابراین نیاز به الگوریتم ها و تکنیک های قوی برای پردازش این نوع از داده ها در جهت یافتن دانش از آنها می باشد. علاوه بر آن، با توجه پیچیدگی های رسم و خط فارسی، پردازش متون فارسی همواره با پیچیدگی ها و سختی هایی همراه بوده است. نظر به اهمیت استخراج دانش از مقالات علمی فارسی، این مقاله به تشخیص موضوعات پنهان در دو نشریه از نشریات وزارت علوم با استفاده از مدلسازی موضوعی احتمالاتی می پردازد. مدلسازی مووضعی احتمالی، فرآیند تشخیص خودکار موضوعات در یک متن با هدف کشف الگوهای پنهان می باشد. در این مقاله، به منظور بدست آوردن مدلسازی موضوعی از الگوریتم تخصیص پنهان دیریکله استفاده شده است. این الگوریتم فرض می کند که نشریه از موضوعات متفاوتی تشکیل شده اند که هر یک متعلق به یک موضوع است و همچنین نسبت موضوعات داخل یک متن یا یکدیگر متفاوت است. یکی از بزرگترین مشکلات موجود در مدلسازی موضوعی، بدست آوردن پارامتر تعداد موضوعات می باشد که کارایی مدل و نتایج نهایی به این پارامتر وابسته است. در این مقاله این مشکل مورد بررسی و تحلیل قرار گرفته و تعداد موضوعات برای دو نشریه منتخب از نشریات وزارت علوم، تخمین زده و کارایی نتایج بدست آمده با معیار عددی و شهودی نشان داده شده است.

Keywords:

مدلسازی موضوعی , الگوریتم تخصیص پنهان دیریکله جستجوی گریدی , انسجام معنایی

Authors

نیلوفر مظفری

استادیار گروه پژوهشی طراحی و عملیات سیستم ها، مرکز منطقه ای اطلاع رسانی علوم فناوری، ایران