ارزیابی و پیاده سازی برچسب گذاری اجزای کلام زبان فارسی به روش تخمین درست نمایی بیشینه

Publish Year: 1394
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 681

This Paper With 11 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

CITCONF03_553

تاریخ نمایه سازی: 12 تیر 1395

Abstract:

امروزه با توجه به گسترش سریع حجم مستندات تولید شده، لزوم طبقه بندی، پردازش، تحلیل نحوی متون بیش از پیش بازنمایی می کند. یکی از اقدامات اساسی برای تحلیل نحوی متون، برچسب گذاری اجزای کلام می باشد. برچسب گذاری اجزای کلام یکی از ابزارهای پایه ای در حوزه ی پردازش زبان طبیعی بوده که وظیفه ی انتساب برچسب های دستوری به کلمات در جمله یا پیکره را برعهده دارد. در این مقاله از پیکره ی متنی بی جن خان برای برچسب گذاری اجزای کلام زبان فارسی استفاده شده است. همچنین برای ابهام زدایی کلمات شناخته شده، از روش تخمین درست نمایی بیشینه و برای برچسب گذاری کلمات ناشناخته نیز از دو مدل مختلف بهره می گیرد. برای ارزیابی عملکرد روش، دو نوع آزمایش انجام داده شده و در نهایت نتایج آزمایش با سایر کارهایی که به روش تخمین درست نمایی بیشینه انجام شده، بررسی و مقایسه گردیده است. میزان موفقیت آزمایش ها به حجم داده ی آموزش و آزمون، و نیز به مدل استفاده شده در روش تخمین درست نمایی بیشینه بستگی دارد. نتایج حاصل شده از آزمایش ها نشان میدهد که دقت کلمات شناخته شده با افزایش داده ی آموزش در آزمایش دوم، که از نسبت های توزیعی داده ها برای جلوگیری از نتایج تصادفی به کار گرفته شده افزایش یافته و استفاده از برچسب « اسم مفرد» در کنار روش تخمین درست نمایی بیشینه برای تشخیص کلمات ناشناخته، موفقیت آمیز بوده و دقت کلی کلمات را نیز افزایش میدهد.

Keywords:

پردازش نحوی متون زبان طبیعی , برچسب گذاری اجزای کلام , روش تخمیین درست نمایی بیشیینه , زبان فارسی

Authors

زینب میرزانژاد

گروه مهندسی مکاترونیک، واحد تبریز، دانشگاه آزاد اسلامی، تبریز، ایران

محمدرضا فیضی درخشی

گروه مهندسی برق، دانشکده فنی مهندسی، دانشگاه تبریز، تبریز، ایران

مراجع و منابع این Paper:

لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :
  • شورای‌عالی‌اطلاع‌رسا نی _ "استخراج نیازمندی های ابزار خطایاب املایی در ...
  • م. شمس‌فرد, "پردازش متون فارسی: دستاورهای گذشته چالش های پیش ...
  • C.D. Manning H. Schitze, Foundations of statistical natural language processing: ...
  • K. Megerdo omian, "Developing a Persian part of speech tagger, ...
  • M. BijanKhan, "The role of the corpus in writing a ...
  • F. Oroumchian, S. Tasharofi, H. Amiri, H. HojjatF. Raja, "Creating ...
  • A. Gelman, J.B. Carlin, H.S. SternD.B. Rubin, Bayesian data analysis ...
  • J. Allen, Natural language understanding (2nd ed.): Benj amin -Cummings ...
  • F. Raja, H. Amiri, S. Tasharofi, M. Sarmadi, H. HojjatF. ...
  • H. Amiri, H. HojjatF. Oroumchian, "Investigation On a feasible corpus ...
  • F. Raja, S. Tasharofi, F. Oroumchian. Rahgozar, "Evaluation of statistical ...
  • A. Aleahmad, Y. RamezaniF. Oroumchian, "Using OWA for Persian Part ...
  • M. Mohtarami, H. Amiri, F. OrumchianM Rahgozar, _ Heuristic Rules ...
  • B. A P. A, "Statistical part of speech tagger for ...
  • نمایش کامل مراجع