CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

دسته بندی متون فارسی با استفاده از روش آنالیز معنایی پنهان احتمالاتی

عنوان مقاله: دسته بندی متون فارسی با استفاده از روش آنالیز معنایی پنهان احتمالاتی
شناسه ملی مقاله: AISST01_076
منتشر شده در همایش ملی کاربرد سیستم های هوشمند (محاسبات نرم) در علوم و صنایع در سال 1392
مشخصات نویسندگان مقاله:

محسن زمانی - دانشجوی کارشناسی ارشد علوم و تحقیقات بوشهر
روح الله دیانت - عضو هیئت علمی دانشگاه قم
مهدی صادق زاده - عضو هیئت علمی دانشگاه آزاد اسلامی واحد ماهشهر

خلاصه مقاله:
دسته بندی موضوعی، محتمل ترین موضوعی که محتوای متن بدان اشاره دارد را مشخص می کند. برای نیل به این هدف، در مقاله حاضر با استفاده از روش آنالیز معنایی پنهان احتمالاتی که بر پایه روش آنالیز معنایی پنهان پایه گذاری شده است و از مبانی احتمالات و قوانین بیزین استفاده می کند، برای عملیات دسته بندی متون فارسی که از پایگاه داده همشهری تهیه شده است و با استفاده از روش فاصله یابی اقلیدسی در فضای ماتریس های کاهش بعد یافته دست آمده از روش فوق بهره گرفته شده است. همچنین از روش TF-IDF جهت تهیه کلمات کلیدی موجود در مجموعه متون مورد استفاده ، به کار گرفته شده است. در مرحله هرس، علاوه بر کلمات دستوری مانند حروف اضافه و ربط، کلمات کلیدی زاید نیز به صورت دستی حذف می شوند. پس از مشخص شدن کلمات کلیدی تمام متون پیمایش شده و برای هر متن یک بردار تهیه شده و ماتریس ورودی مربوط به روش آنالیز معنایی پنهان احتمالاتی فراهم می آید. پس از اعمال روش بر روی داده های آموزش و داده های آزمون ، بردارهای حاصل را با بردار های مرحله آموزش مقایسه کرده، برداری که کمترین فاصله را با بردار متن مرحله آموزش دارد، بر چسب دسته مربوط به متن را مشخص یم نماید. نتایج حاصل شده در این مقاله نشان میدهد که روش بکار رفته در بهبود عملکرد سیستم نقش موثری دارد.

کلمات کلیدی:
برچسب زنی موضوعی، مفهوم پنهان، آنالیز معنایی پنهان احتمالاتی، کلمات کلیدی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/206251/