دسته بندی متون کتب فارسی در موضوعات مختلف با تکنیکهای متن کاوی و یادگیری ماشین
Publish place: The 15th National Conference of Applied Researches in Electrical, Computer and Medical Engineering Sciences
Publish Year: 1402
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 196
This Paper With 11 Page And PDF Format Ready To Download
- Certificate
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ECMECONF15_026
تاریخ نمایه سازی: 16 خرداد 1402
Abstract:
امروزه حجم زیادی از داده هایی که به صورت روزانه در جهان تولید میشود مربوط به داده های متنی یا همان داده های غیرساختیافته میباشد و سازمانها میتوانند از طریق تحلیل و پردازش این داده ها به اطلاعات با ارزش و دانش مفیدی برای بهبود فرآیند کسب و کار خود دست یابند. در واقع با استفاده از تکنیکهای متن کاوی یا پردازش متن میتوان با کشف الگوهای نهان موجود در داده ها و تبدیل آن به اطلاعات با معنا به سادگی مجموعه داده های بزرگ را تحلیل نمود.این پژوهش که با هدف دستهبندی متون موجود در کتب فارسی از منظر محتوای آنها به دسته های مختلف اقتصادی، تاریخی، روانشناسی، سلامتی، فنی و مهندسی و هنری که خود میتواند نمونه ای از داده هایی که در زمینه های مختلف تولید میشود میباشد انجام شده است. به این منظور ابتدا قسمتی از خلاصه مربوط به کتب در این دسته ها را در یک مجموعه گردآوری نمودیم سپس با استفاده از برخی از تکنیکهای متنکاوی متون فارسی به پیش پردازش و آماده سازی متون پرداختیم و پس از آن با استفاده از الگوریتم های یادگیری ماشین مانند ماشین بردار پشتیبان و گرادیان تقویتی به پیشبینی دسته بندی متون پرداختیم. در پایان دقت پیش بینی این روش ها را با یکدیگر مقایسه نمودیم که مشخص گردید که ماشین بردار پشتیبان عملکرد بهتری نسبت به الگوریتم گرادیان تقویتی دارد پس از آن ابر کلمات که نشاندهنده کلمات پرتکرار و مهم در هر دسته میباشد را نیز ترسیم نمودیم. میتوان دسته بندی متون فارسی را از طریق ساخت مدلهای یادگیری ماشین شناسایی نمود و کلمات مهم و پرتکرار موجود در آن ها را نیز تشخیص داد.
Keywords:
Authors
فرانک خونساریان
دانش آموخته کارشناسی ارشد مهندسی فناوری اطلاعات دانشگاه تربیت مدرس تهران