تولید پیکره متنی برای زبان فارسی با استفاده از راه حل های مبتنی بر دانش

Publish Year: 1397
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 861

This Paper With 15 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

NCAEC04_026

تاریخ نمایه سازی: 29 اردیبهشت 1398

Abstract:

با گسترش استفاده ی دستگاه های دیجیتال، بخصوص رایانه ها، تولید و بکارگیری متن دیجیتال در رایانه، زبان فارسی را با چالش های جدیدی روبرو کرده است. تولید و استفاده از متون رقمی در رایانه، مستلزم بکارگیری ابزارهای پردازش زبان طبیعی است. انجام پژوهش در حوزه ی پردازش زبان طبیعی برای فارسی، نیازمند پیش نیازهایی مانند منابع زبانی، پیکره ها و ابزارهای پردازش زبان است. عدم دسترسی به پیش نیازهای تحقیق، موجب عقب ماندگ یهای بسیاری در حوزه ی پردازش زبان طبیعی شده است. حال آنکه بیش از 1% از جمعیت جهان فارسی زبانند و بیش از 134 میلیون نفر در جهان زبان فارسی را به عنوان زبان اول یا دوم صحبت می کنند و چنین کمبودهایی مسلما آزار دهنده و مشکل سازا است. برای رفع این مشکلات در این پژوهش راه کارهایی مبتنی بر تولید دانش برای تهیه منابع و رفع پیش نیازهای تحقیق در حوزه ی زبان فارسی ارایه می شود. در همین راستا یک پیکره یک زبانه از متن مقالات فارسی تهیه شده و برپایه ی آن یک دیکشنری از واژگان صحیح فارسی ساخته می شود. با استفاده از این منابع ابزار تجزیه کننده متن، غلط یاب لغوی و پیکره ی مجموعه ی ابهام واژگان فارسی نیز تولید می شود.

Keywords:

پردازش زبان طبیعی , زبان فارسی , راه کارهای مبتنی بر دانش , پیکره فارسی , غلط یاب فارسی , مجموعه ابهام واژگان فارسی

Authors

محمدباقر دستغیب

عضو هیات علمی مرکز منطقه ای اطلاع رسانی علوم و فناوری شیراز، ایران