CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

الگوریتمی جدید برای طبقه بندی مستندات فارسی، مبتنی بر وزن دهی به ویژگی ها وفایل ها

عنوان مقاله: الگوریتمی جدید برای طبقه بندی مستندات فارسی، مبتنی بر وزن دهی به ویژگی ها وفایل ها
شناسه ملی مقاله: ICEASCONF01_086
منتشر شده در کنفرانس بین المللی مهندسی و علوم کاربردی در سال 1394
مشخصات نویسندگان مقاله:

محبوبه ضیایی - آموزشکده فنی و حرفه ای سماء، دانشگاه آزاد اسلامی، واحد کازرون، کازرون، ایران
مریم محمدی - آموزشکده فنی و حرفه ای سماء، دانشگاه آزاد اسلامی، واحد کازرون، کازرون، ایران

خلاصه مقاله:
با توجه به حجم روز افزون اطلاعات در دنیای کنونی، نیاز به ابزارهای قدرتمند جدید برای تبدیل داده به دانش مفید افزایش یافته است. یکی از روش ه ای حیاتی کنترل و مدیریت داده ها، طبقه بندی متون می باشد. در این مقاله الگوریتمی برای طبقه بندی مستندات فارسی ارائه شده است، که دارای قابلیت هایی همچون کنترل وزن دهی به ویژگی ها با روش وزن دهی مبتنی ؛F کیفیت دسته بندی ایجاد شده بر اساس بازخورد معیار ارزیابی بر طبقات و همچنین اختصاص دادن وزن به هر فایل در تمامی طبقات و انتقال فایل به طبقه ای که وزنبیشتری در آن طبقه دارد؛ می باشد. این روند باعث می شود حذف کلمات زائد به دلیل بهبود در کلاس ها با کیفیت بالا تری انجام شود. در نهایت الگوریتم را مورد ارزیابی قرار می دهیم؛ به این صورت که ابتدا تاثیر طبقه بندی تصادفی اولیه ی متفاوت، سپس تاثیر روش های مختلف وزن دهی TFCRF،TFRF،TFIDF و روش وزن دهی پیشنهادی را بر روی خروجی الگوریتم طبقه بندی پیشنهادی مورد بررسی قرار می دهیم. نتایج نشان می دهد، تمامی موارد ذکر شده به صورت تجمعی باعث افزایش کیفیت و دقت در طبقه بندی می شود.

کلمات کلیدی:
متن کاوی، طبقه بندی متون فارسی، وزن دهی ویژگیها، بازیابی مستندات

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/482939/