بررسی تاثیر دقت برچسب اجزای کلام در کارایی سامانه شناسایی موجودیت های نامدار برای زبان فارسی

Publish Year: 1394
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 542

متن کامل این Paper منتشر نشده است و فقط به صورت چکیده یا چکیده مبسوط در پایگاه موجود می باشد.
توضیح: معمولا کلیه مقالاتی که کمتر از ۵ صفحه باشند در پایگاه سیویلیکا اصل Paper (فول تکست) محسوب نمی شوند و فقط کاربران عضو بدون کسر اعتبار می توانند فایل آنها را دریافت نمایند.

  • Certificate
  • من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

DIDRAS01_012

تاریخ نمایه سازی: 26 مرداد 1397

Abstract:

تشخیص موجودیت های نامدار یکی از مسایل پردازش زبان طبیعی است که هدف آن شناسایی موجودیت های نامدار موجود در یک متن و دسته بندی آنها در دسته های از پیش تعیین شده است. یکی از روش های تشخیص موجودیت نامدار، استفاده از پیکره برچسبگذاری شده و اعمال روش های یادگیری ماشین است. در این مقاله نحوه تولید یک سامانه تشخیص موجودیت نامدار مبتنی بر پیکره با استفاده از روش میدان های تصادفی شرطی شرح داده میشود. همچنین تاثیر دقت برچسب اجزا کلام (به عنوان یک ویژگی مورد استفاده) بر دقت سامانه موجودیت نامدار بررسی میگردد. سامانه ذکر شده با استفاده از پیکره فارسی اعلام که حاوی حدود 250 هزار توکن است، تولید شده است. آموزش این سامانه با استفاده از برچسب های اجزای کلام دقیق برگرفته از پیکره متنی فارسی منتج به f-85 measure درصد شده است. این در حالی است که استفاده از برچسب های تولیده شده از یک ابزار برچسب گذاری اجزای کلام (برچسب گذاری غیر دقیق) در آموزش این سامانه منجر به دستیابی به 84/9 f-measure درصد شده است.

Keywords:

تشخیص موجودیت های نامدار , پیکره موجودیت های نامدار , پردازش زبان طبیعی , یادگیری ماشین , برچسب اجزای کلام

Authors

شادی حسین نژاد

گروه پردازش صوت و زبان طبیعی، پژوهشگاه توسعه فناوری های پیشرفته خواجه نصیرالدین طوسی ، تهران،

یاسر شکفته

گروه پردازش صوت و زبان طبیعی، پژوهشگاه توسعه فناوریهای پیشرفته خواجه نصیرالدین طوسی ، تهران،

طاهره امامی آزادی

گروه پردازش صوت و زبان طبیعی، پژوهشگاه توسعه فناوریهای پیشرفته خواجه نصیرالدین طوسی ، تهران