تنوع نگارشی در زبان فارسی و تهیه خودکار دادگان املایی از پیکره زبانی مبتنی بر وب
Publish place: First International Conference on Web Research
Publish Year: 1394
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 648
متن کامل این Paper منتشر نشده است و فقط به صورت چکیده یا چکیده مبسوط در پایگاه موجود می باشد.
توضیح: معمولا کلیه مقالاتی که کمتر از ۵ صفحه باشند در پایگاه سیویلیکا اصل Paper (فول تکست) محسوب نمی شوند و فقط کاربران عضو بدون کسر اعتبار می توانند فایل آنها را دریافت نمایند.
- Certificate
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
IRANWEB01_032
تاریخ نمایه سازی: 29 شهریور 1394
Abstract:
در عصر اطلاعات و ارتباطات، وب جایگاه ویزه ای پیدا کرده است، چرا که با کاربران بسیار متنوعی در تعامل بوده و می توان از آن به عنوان یک منبع اطلاعاتی غنی زبانی استفاده کرد. تهیه پیکره مبتنی بر وب می تواند برای پردازش های زبانی منبع مناسبی باشد. ولی استفاده از این منبع ساده نیست. از آنجا که کاربران مختلفی موجب خلق متن در وب می شوند، برخورد با پدیده تنوع نگارشی اجتناب ناپذیر خواهد بود. در این مقاله، به بررسی این پدیده در پیکره زبانی حاصل از وب برای زبان فارسی می پردازیم و با معرفی یک الگوریتم تلاش می کنیم تنوع نگارشی واژه ها را به طور خودکار استخراج کرده و بر اساس آن، دادگانی برای تنوع نگارشی واژه های فارسی تهیه کنیم. سپس با طبقه بندی تنوع نگارشی می پردازیم. این دادگان می تواند برای اتخاذ شیوه های آموزش زبان فارسی به غیر فارسی زبانان و یا در زبان شناسی پیکره ای و پردازش زبان طبیعی مورد استفاده قرار گیرد.
Keywords:
پردازش خوداکار زبان فارسی , زبان شناسی پیکره ای , پیکره مبتنی بر وب , فاصله لونشتاین , تنوع نگارشی , دادگان , طبقه بندی
Authors
مسعود قیومی
دانشگاه آزاد برلین، برلین، آلمان
ساغر شریفی
دانشکده زبان های خارجی، دانشگاه آزاد اسلامی واحد کرج، البرز، ایران
مرضیه صناعتی
پژوهشکده زبان شناسی، سازمان میراث فرهنگی، صنایع دستی و گردشگری، تهران، ایران
مراجع و منابع این Paper:
لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :