بهبود مبتنی بر تخصیص پنهان دریکله برای دسته بندی متون با استفاده از تکنیک های پردازش متن

Publish Year: 1396
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 508

This Paper With 9 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

CONFITC04_149

تاریخ نمایه سازی: 6 مهر 1397

Abstract:

فرایند داده کاوی به زیر شاخه های گوناگونی تقسیم میشود که یکی از این زیر شاخه ها فرایند داده کاوی از متن هاستکه به نام پردازش متن نیز شناخته می شود. پردازش متن با استفاده از تکنیک های گوناگون، اطلاعات مفید را از داده هایمتنی غیرساخت یافته یا نیمه ساخت یافته استخراج می کند. از آنجا که پردازش متن در موقعیت های مختلفی به استخراجدانش از متن می پردازد، تکنیک های گوناگونی برای آن وجود دارد. یکی از این موارد تکنیک NGram است که از طریق پیشینه کلمه، به مدلسازی می پردازد. این تکنیک توانسته است به بهبود کاوش متن کمک کند. در این مقاله بااستفاده از روش NGram، اقدام به ساخت مدل موضوعی نمودیم که همزمان با استخراج کلمه های کلیدی سند به دسته بندی آنها می پردازد. در فرایند مدلسازی از پارامترهای مخفی استفاده میکنیم که این پارامترها شاخص هایی هستند کهبه مدل کمک می کنند تا با استفاده از پیشینه کلمات و جملات به دسته بندی مطلوب اسناد بپردازد. مجموعه دادهای کهدر این مقاله استفاده شده است شامل متون نظرسنجی میباشد که در سال 2015 نظرسنجی شده است که این داده ها یکیاز داده های مشهور در زمینه دسته بندی متون می باشد. هدف، بهبود روش تخصیص پنهان دریکله است. نتایج روشهایمشابه با روش پیشنهادی مقایسه شده است که روش پیشنهادی توانسته عمکرد بهتری را نسبت به روش های قبلی داشته باشد.

Authors

زهرا کوهنورد

دپارتمان مهندسی کامپیوتر، دانشکده فنی و مهندسی، واحد سمنان، دانشگاه آزاد اسلامی، سمنان، ایران