گام نخست در کاوش متون فارسی

آذر شاهقلیان; محمدحسین سرایی; علی شالبافزاده

گام نخست در کاوش متون فارسی

Publish place: 1st Iran Data Mining Conference

Publish Year: 1386

نوع سند: مقاله کنفرانسی

زبان: Persian

This Paper With 7 Page And PDF Format Ready To Download

دریافت فایل کامل Paper

Certificate
من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

هوش مصنوعی > یادگیری ماشین

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

https://civilica.com/doc/32998

شناسه ملی سند علمی:

IDMC01_021

تاریخ نمایه سازی: 20 خرداد 1386

Abstract:

طبقه بندی بر مبنای فاصله برای طبقه بندی متون فارسی پیشنهاد داده شده است . طبقه بند، در فاز یادگیری، مجموعه - ای از متون آموزشی را برای استخراج ویژگیهای دستهها بررسی میکند تا خصوصیات اصلی ویژه دسته را بدست آورد . بطوریکه در فاز تست طبقهبند، این ویژگیهای مختص دسته برای طبقه بندی متون طبقهبندی نشده بهکار میرود . از stemming برای کاهش دیمانسیون بردارهای ویژگی استفاده میشود . دقت طبقهبند بوسیله اعمال الگوریتم روی مجموعه جمعآوری شدهای از متون فارسی، مورد آزمایش قرار گرفته است . نتایج حاصله نشان میدهد که طبقهبند پیشنهادی از دقت بالایی برخوردار است . مجموعهای از متون فارسی که از روی سایتهای خبری موجود در وب جمع آوری شده است، برای انجام این تحقیق بکار میرود . این متون در ابتدا بوسیله از بین بردن علائم نقطهگذاری و کلمات بیفایده، پیش پردازش میشوند . در طبقهبند برای نمایش هر متن از یک بردار ویژگی استفاده میشود که شامل کلمات شاخص و میزان تکرار آن کلمات در متن میباشد . پیشگویی طبقهبند بر پایه فرضیات آماری استوار است که متونی که در دسته یکسانی قرار میگیرند، ویژگیهای مشابهی دارند . برای طبقهبندی متن جدید، ابتدا بردار ویژگی آن متن ساخته شده، سپس با بردارهای ویژگی دستهها مقایسه میشود . دسته برنده، دستهای است که به متن جدید نزدیکتر است . این ایده طبقهبندی k-NN میباشد

Keywords:

طبقهبندی متن , یادگیری ماشین , زبان فارسی , K-NN Classifier

Authors

آذر شاهقلیان

دانشگاه آزاد اسلامی واحد نجف آباد،

محمدحسین سرایی

عضو هیات علمی دانشگاه صنعتی اصفهان، استاد مدعو دانشگاه آزاد اسلامی و

علی شالبافزاده

دانشگاه صنعتی اصفهان