CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

دسته بندی متون فارسی با استفاده از شبکه عصبی و بهره گیری از الگوریتم های LDA,PCA جهت کاهش ویژگی

عنوان مقاله: دسته بندی متون فارسی با استفاده از شبکه عصبی و بهره گیری از الگوریتم های LDA,PCA جهت کاهش ویژگی
شناسه ملی مقاله: NCCOS02_058
منتشر شده در دومین همایش ملی کامپیوتر در سال 1392
مشخصات نویسندگان مقاله:

مهدی برفامی - دانشکده کامپیوتر و فناوری اطلاعات، دانشگاه آزاد اسلامی بابل، ایران
سهیل فاطری - دانشکده کامپیوتر و فناوری اطلاعات، دانشگاه آزاد اسلامی بابل، ایران

خلاصه مقاله:
در دنیای مدرن کنونی، دستیابی به اطلاعات ارزش بالایی دارد. با افزایش حجم اطلاعات، نیاز فوقالعاده به ابزارهایی که بتوانند در جستجو، فیلترنمودن و مدیریت منابع موثر باشند، کاملاً احساس میشود. دسته بندی متون، فرآیندی است که در آن متنها در یک یا چند دسته از قبل تعریف شده براساس محتوا یا زبان نگارش متن قرار میگیرند. در این مقاله کاربرد شبکه عصبی چند لایه پرسپترون MLP در دسته بندی مستندات نیمه ساخته یافته XML بر روی پایگاه داده روزنامه همشهری بررسی شده و دستاوردهای آن مورد ارزیابی قرار گرفته است. البته برای دستهبندی مستندات با کارآیی بالا، دقت در شناسایی و انتخاب ویژگی- های مهم، نقش بسزایی دارد. به همین علت تمرکز بر روی تکنیکهای پیش پردازش مستندات و به گونه ویژه، روشهای وزندهی ویژگی مورد بررسی و تحلیل قرار گرفته و یکی از روشها TFCRF برای وزن دهی به مستنداتی که به عنوان ورودی شبکه عصبی مورد مطالعه است، بکار رفته است. در این مقاله برای استخراج بهترین ویژگیها از روش تجزیه و تحلیل مولفه های اصلی PCA با ارزیاب KNN استفاده شده و سپس نتایج آن با روش جداکننده خطی LDA ترکیب شده، در نهایت شبکه عصبی انتخاب شده مورد تست و ارزیابی قرار گرفته است. نتایج به دست آمده نشان داد که دقت دستهبندی متون فارسی با روش پیشنهادی به صورت قابل توجهی افزایش خواهد یافت

کلمات کلیدی:
شبکه عصبی چند لایه پرسپترون، دسته بندی متون، وزندهی ویژگی، مستندات نیمه ساخت یافته

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/295351/