CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

دسته بندی موضوعی متون فارسی با استفاده از تکنیک های یادگیری انتقالی

عنوان مقاله: دسته بندی موضوعی متون فارسی با استفاده از تکنیک های یادگیری انتقالی
شناسه ملی مقاله: ITCC01_445
منتشر شده در کنفرانس بین المللی پژوهش های کاربردی در فناوری اطلاعات، کامپیوتر ومخابرات در سال 1394
مشخصات نویسندگان مقاله:

احمد امامی - دانشجوی کارشناسی ارشد دانشگاه آزاد اسلامی واحد نیشابور
رضا قائمی - استادیار دانشگاه آزاد اسلامی واحد نیشابور ، گروه مهندسی کامپیوتر – نرم افزار

خلاصه مقاله:
یک فرض عمده در بسیاری از الگوریتم های یادگیری ماشین یکسان بودن ابعاد ویژگی و توزیع داده ها است. اما بسیاری از کاربردهای واقعی دارای این خصوصیت نیستند. به طوری که داده هایی که الگوریتم در آینده دریافت می کند ممکن است دارای ابعاد ویژگی متفاوت و یا از توزیع دیگری باشند. در اینجا یادگیری انتقالی مطرح می شود. یادگیری انتقالی یک مسئله تحقیقاتی در حوزه یادگیری ماشین است که تمرکز آن بر روی ذخیره کردن دانش به دست آمده از حل یک مسئله و به کاربردن آن برای حل مسئله متفاوت اما مرتبط دیگری است. هدف ما در این پایان نامه استفاده از یادگیری انتقالی مبتنی بر شبکه های بیزین برای حل مسئله دسته بندی متون فارسی است. مجموعه آزمایش همشهری یکی از معتبرترین منابع در زبان فارسی در حوزه متون زبان طبیعی است. از این مجموعه، زبربیکره ای دارای 3500 متن به عنوان مجموعه ی آموزش و آزمون و همچنین به منظور استخراج کلمات کلیدی انتخاب گردید. برای ارزیابی روش پیشنهادی دو کلاس مجموعه داده یکی بدون برچسب و دیگری برچسب دار انتخاب شده و طبقه بندی نایوبیز انتقالی و نایو بیز ساده روی مجموعه داده انتخابی اعمال می شود. در این مقاله 10 جفت کلاس مختلف را تحت 10 آزمایش جداگانه مورد بررسی قرار گرفته است. نتایج سه معیار دقت، بازخوانی و معیار F حاصل از پیاده سازی، نشان دهنده دقت قابل قبول مدل پیشنهادی برای دسته بندی متون فارسی با استفاده از یادگیری انتقالی می باشد.

کلمات کلیدی:
متن کاوی، دسته بندی متون فارسی، یادگیری انتقالی، شبکه های بیزین، مجموعه داده همشهری

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/451232/