CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

بهبود مبتنی بر تخصیص پنهان دریکله برای دسته بندی متون با استفاده از تکنیک های پردازش متن

عنوان مقاله: بهبود مبتنی بر تخصیص پنهان دریکله برای دسته بندی متون با استفاده از تکنیک های پردازش متن
شناسه ملی مقاله: CONFITC04_149
منتشر شده در چهارمین کنفرانس بین المللی مطالعات نوین در علوم کامپیوتر و فناوری اطلاعات در سال 1396
مشخصات نویسندگان مقاله:

زهرا کوهنورد - دپارتمان مهندسی کامپیوتر، دانشکده فنی و مهندسی، واحد سمنان، دانشگاه آزاد اسلامی، سمنان، ایران
محمدکریم سهرابی

خلاصه مقاله:
فرایند داده کاوی به زیر شاخه های گوناگونی تقسیم میشود که یکی از این زیر شاخه ها فرایند داده کاوی از متن هاستکه به نام پردازش متن نیز شناخته می شود. پردازش متن با استفاده از تکنیک های گوناگون، اطلاعات مفید را از داده هایمتنی غیرساخت یافته یا نیمه ساخت یافته استخراج می کند. از آنجا که پردازش متن در موقعیت های مختلفی به استخراجدانش از متن می پردازد، تکنیک های گوناگونی برای آن وجود دارد. یکی از این موارد تکنیک NGram است که از طریق پیشینه کلمه، به مدلسازی می پردازد. این تکنیک توانسته است به بهبود کاوش متن کمک کند. در این مقاله بااستفاده از روش NGram، اقدام به ساخت مدل موضوعی نمودیم که همزمان با استخراج کلمه های کلیدی سند به دسته بندی آنها می پردازد. در فرایند مدلسازی از پارامترهای مخفی استفاده میکنیم که این پارامترها شاخص هایی هستند کهبه مدل کمک می کنند تا با استفاده از پیشینه کلمات و جملات به دسته بندی مطلوب اسناد بپردازد. مجموعه دادهای کهدر این مقاله استفاده شده است شامل متون نظرسنجی میباشد که در سال 2015 نظرسنجی شده است که این داده ها یکیاز داده های مشهور در زمینه دسته بندی متون می باشد. هدف، بهبود روش تخصیص پنهان دریکله است. نتایج روشهایمشابه با روش پیشنهادی مقایسه شده است که روش پیشنهادی توانسته عمکرد بهتری را نسبت به روش های قبلی داشته باشد.

کلمات کلیدی:
داده کاوی، پردازش متن، مدلسازی موضوعی، پردازش زبان طبیعی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/779171/