تنوع نگارشی در زبان فارسی و تهیه خودکار دادگان املایی از پیکره زبانی مبتنی بر وب

مسعود قیومی; ساغر شریفی; مرضیه صناعتی

تنوع نگارشی در زبان فارسی و تهیه خودکار دادگان املایی از پیکره زبانی مبتنی بر وب

Publish place: First International Conference on Web Research

Publish Year: 1394

نوع سند: مقاله کنفرانسی

زبان: Persian

متن کامل این Paper منتشر نشده است و فقط به صورت چکیده یا چکیده مبسوط در پایگاه موجود می باشد.
توضیح: معمولا کلیه مقالاتی که کمتر از ۵ صفحه باشند در پایگاه سیویلیکا اصل Paper (فول تکست) محسوب نمی شوند و فقط کاربران عضو بدون کسر اعتبار می توانند فایل آنها را دریافت نمایند.

Certificate
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

https://civilica.com/doc/378226

شناسه ملی سند علمی:

IRANWEB01_032

تاریخ نمایه سازی: 29 شهریور 1394

Abstract:

در عصر اطلاعات و ارتباطات، وب جایگاه ویزه ای پیدا کرده است، چرا که با کاربران بسیار متنوعی در تعامل بوده و می توان از آن به عنوان یک منبع اطلاعاتی غنی زبانی استفاده کرد. تهیه پیکره مبتنی بر وب می تواند برای پردازش های زبانی منبع مناسبی باشد. ولی استفاده از این منبع ساده نیست. از آنجا که کاربران مختلفی موجب خلق متن در وب می شوند، برخورد با پدیده تنوع نگارشی اجتناب ناپذیر خواهد بود. در این مقاله، به بررسی این پدیده در پیکره زبانی حاصل از وب برای زبان فارسی می پردازیم و با معرفی یک الگوریتم تلاش می کنیم تنوع نگارشی واژه ها را به طور خودکار استخراج کرده و بر اساس آن، دادگانی برای تنوع نگارشی واژه های فارسی تهیه کنیم. سپس با طبقه بندی تنوع نگارشی می پردازیم. این دادگان می تواند برای اتخاذ شیوه های آموزش زبان فارسی به غیر فارسی زبانان و یا در زبان شناسی پیکره ای و پردازش زبان طبیعی مورد استفاده قرار گیرد.

Keywords:

پردازش خوداکار زبان فارسی , زبان شناسی پیکره ای , پیکره مبتنی بر وب , فاصله لونشتاین , تنوع نگارشی , دادگان , طبقه بندی

Authors

مسعود قیومی

دانشگاه آزاد برلین، برلین، آلمان

ساغر شریفی

دانشکده زبان های خارجی، دانشگاه آزاد اسلامی واحد کرج، البرز، ایران

مرضیه صناعتی

پژوهشکده زبان شناسی، سازمان میراث فرهنگی، صنایع دستی و گردشگری، تهران، ایران

مراجع و منابع این Paper:

لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :

_ 1. _ دستور خط فارسی، [3] ...
"Challenges in developing Persian corpora from on-line resources", In Proceedings ...
Processing, Singapore, pp: 108-113, 2009. [4] ...
and Mahmood Bijankhan, _ study of corpus development for Persian", ...
capable of correcting deletions, insertions, and reversals", Soviet Physics Doklady, ...
Manouchehr Kouhestani and Amirsaeid Moloodi, _ evelopment of a Persian ...
University, October 31-November 1, pp. 73-79, 2013. [8] ...
Joakim Nivre, _ basic language resgurce kit for Persian", In ...
_ problems in Persian text processing", _ Proceedings of the ...
fundamental tools for Persian Text Processing", In Proceedings of the ...

نمایش کامل مراجع