CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

مقایسه ی روشهای وزن دهی ویژگی درفرآیند طبقه بندی مستندات

عنوان مقاله: مقایسه ی روشهای وزن دهی ویژگی درفرآیند طبقه بندی مستندات
شناسه ملی مقاله: BPJ01_447
منتشر شده در اولین همایش ملی رویکردهای نوین در مهندسی کامپیوتر و بازیابی اطلاعات در سال 1392
مشخصات نویسندگان مقاله:

مصطفی کریمی منش - دانشگاه پیام نورمرکزتهران
حسین شیرازی - دانشیاردانشگاه صنعتی مالک اشترتهران

خلاصه مقاله:
محوری ترین موضوع درحوزه متن کاوی طبقه بندی مستندات است اساس کارطبقه بندی مستندات برپایه کلمات کلیدی ومهمی است که ازمستندات استخراج میشود این کلمات یاهمان ویژگیها مضمون اصلی مطلب رابه مخاطب می رسانند ویانکات اصلی مطلب رابرمیگیرند بعدازاین مرحله فرایند وزن دهی به ویژگیها است وزن هرویژگی نشان دهنده قدرت ویژگی دربیان مفهوم کلی یک مستند است این دومرحله جز تکنیکهای پیش پردازش درحوزه طبقه بندی مستندات به شمار میرود بدیهی است انتخاب روشهای کارامد درشناسایی استخراج ووزن دهی ویژگی نقش مهمی دربالا بردن کارایی و دقت طبقه بندی کننده مستندات است درروشهای انتخاب ویژگی مواردی همچون میزان وابستگی ویژگی به مستندات تعدادتکرار ویژگی قدرت ویژگی درجداسازی مستندات و وابستگی ویژگیها به طبقات مورد بررسی قرارمیگیرد همچنین درموضوع وزن دهی روشهای مبتنی برتعدادتکرار کلمه IF روشهای مبتنی برتعدادتکرار کلمه درمستندات مختلف IDF,روشهای ترکیبی IDF,TF مطرح هستند بعدازمقایسه ی روشهای مطرح وزن دهی معلوم شد برخی ازآنها دربرابر افزیاش تعدادمستندات افزایش طول مستندات افزایش تعدادویژگیها افزایش طبقات و یاناهمگونی ماهیت ویژگیها درعملکرد و دقت دچار ضعف میشوند

کلمات کلیدی:
انتخاب ویژگی،Document Classification ، Information extraction ، Text mining، طبقه بندی مستندات، وزن دهی ویژگی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/225706/