تولید پیکره متنی برای زبان فارسی با استفاده از راه حل های مبتنی بر دانش

محمدباقر دستغیب

تولید پیکره متنی برای زبان فارسی با استفاده از راه حل های مبتنی بر دانش

Publish place: Fourth National Conference on New Achievements in Electrical and Computer and Industries

Publish Year: 1397

نوع سند: مقاله کنفرانسی

زبان: Persian

This Paper With 15 Page And PDF Format Ready To Download

دریافت فایل کامل Paper

Certificate
من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

هوش مصنوعی > پردازش زبان طبیعی

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

https://civilica.com/doc/851799

شناسه ملی سند علمی:

NCAEC04_026

تاریخ نمایه سازی: 29 اردیبهشت 1398

Abstract:

با گسترش استفاده ی دستگاه های دیجیتال، بخصوص رایانه ها، تولید و بکارگیری متن دیجیتال در رایانه، زبان فارسی را با چالش های جدیدی روبرو کرده است. تولید و استفاده از متون رقمی در رایانه، مستلزم بکارگیری ابزارهای پردازش زبان طبیعی است. انجام پژوهش در حوزه ی پردازش زبان طبیعی برای فارسی، نیازمند پیش نیازهایی مانند منابع زبانی، پیکره ها و ابزارهای پردازش زبان است. عدم دسترسی به پیش نیازهای تحقیق، موجب عقب ماندگ یهای بسیاری در حوزه ی پردازش زبان طبیعی شده است. حال آنکه بیش از 1% از جمعیت جهان فارسی زبانند و بیش از 134 میلیون نفر در جهان زبان فارسی را به عنوان زبان اول یا دوم صحبت می کنند و چنین کمبودهایی مسلما آزار دهنده و مشکل سازا است. برای رفع این مشکلات در این پژوهش راه کارهایی مبتنی بر تولید دانش برای تهیه منابع و رفع پیش نیازهای تحقیق در حوزه ی زبان فارسی ارایه می شود. در همین راستا یک پیکره یک زبانه از متن مقالات فارسی تهیه شده و برپایه ی آن یک دیکشنری از واژگان صحیح فارسی ساخته می شود. با استفاده از این منابع ابزار تجزیه کننده متن، غلط یاب لغوی و پیکره ی مجموعه ی ابهام واژگان فارسی نیز تولید می شود.

Keywords:

پردازش زبان طبیعی , زبان فارسی , راه کارهای مبتنی بر دانش , پیکره فارسی , غلط یاب فارسی , مجموعه ابهام واژگان فارسی

Authors

محمدباقر دستغیب

عضو هیات علمی مرکز منطقه ای اطلاع رسانی علوم و فناوری شیراز، ایران