دسته بندی اسناد فارسی با استفاده از شبکه های عصبی

زهرا, نوریان; میثم, یدالله زاده طبری

دسته بندی اسناد فارسی با استفاده از شبکه های عصبی

عنوان مقاله: دسته بندی اسناد فارسی با استفاده از شبکه های عصبی
شناسه ملی مقاله: AEBSCONF03_007
منتشر شده در سومین کنفرانس بین المللی دستاوردهای نوین در علوم مهندسی و پایه در سال 1394

مشخصات نویسندگان مقاله:

زهرا نوریان - نویسنده مسوول: دانشجوی فوق لیسانس دانشگاه آزاد اسلامی واحددامغان
میثم یدالله زاده طبری - مربی فوق لیسانس دانشگاه آزاد بابل ، دکتری هوش مصنوعی دانشگاه شاهرود

خلاصه مقاله:

در این مقاله کار دسته بندی اسناد فارسی مشتقاز پیکره استاندارد روزنامه همشهری طی سالهای مختلف انجام گرفته به منظور اجرا استفاده از شبکه های عصبی با الگوریتم پس انتشار و شبکه های باور عمیق مبتنی بر یادگیری عمیق تحت زبان برنامه نویسی پایتون استفاده شده.اسناد پیکره همشهری به صورت فایل های مشخص XML استفاده شده اند.تگ های ID, DOC, TXT برای انجام کار پیش پردازش داده ها برای دسته بندی استخراج شدند.کار پیش پردازش داده ها شامل مراحل نشان گذاری،حذف علائم،حذف ایست واژه ها و ریشه یابی کلمات با استفاده از کتابخانه هضم انجام گرفته.پس از پیش پردازش با استفاده از بردار وزنی TF-IDFماتریس وزنی کلمات تشکیل شده و بعداز آن با استفاده از روش کاهش ابعادی SVD این ماتریس از زائدات کاهش یافته است.ماتریس کاهش یافته به عنوان ورودی برای شبکه های عصبی با الگوریتم پس انتشار استفاده شده و جهت دسته بندی با شبکه های باور عمیق کار پیش پردازش داده ها و سایر مراحل با استفاده از کتابخانه های زبان پایتون که به این منظور در مبحث یادگیری عمیق طراحی شده اند انجام گرفته است.عمل یادگیری در شبکه های عصبی و شبکه باور عمیق در 100 رده انجام پذیرفته و معیارهای قابل بررسی در این مسئله دقت، فراخوانی، اندازه گیریF-و کارایی می باشند.پس از اجرای کار دسته بندی بر روی این دو دسته بند نتایج به دست آمده نشان داده است که دقت ، سرعت و کارایی در شبکه های باور عمیق به مراتب مطلوب تر از شبکه های عصبی با الگوریتم پس انتشار است.

کلمات کلیدی:

دسته بندی،متن کاوی، پیکره همشهری، شبکه عصبی،یادگیری عمیق،فراوانی وزنی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/455688/