تعیین مرز کلمات و عبارات در متون نوشتاری فارسی
Publish place: 14th Annual Conference of Computer Society of Iran
Publish Year: 1387
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 2,409
This Paper With 8 Page And PDF Format Ready To Download
- Certificate
- من نویسنده این مقاله هستم
این Paper در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ACCSI14_196
تاریخ نمایه سازی: 26 مهر 1387
Abstract:
قطعه بندی متون نوشتاری به تشخیص مرز سازه های متن شامل جملات، عبارات و گروه های نحوی و کلمات در متن می پردازد. این کار در زبان های طبیعی مختلف با توجه به ویژگی های نوشتاری و رسم الخط آن زبان دارای مشکلات متفاوتی است. رویکردهای پیشنهادی در دو قالب اصلی قطعه بندی کلمات و عبارات دسته بندی می شوند. زبان فارسی به دلیل وجود رسم الخط های متفاوت، جملات بدون ترتیب نسبتا زیاد و افعال مرکب در قطعه بندی دارای ابهاماتی است.
در این مقاله، به جمع آوری و تشریح عوامل موثر در قطعه بندی کلمات و عبارات در زبان های مختلف به ویژه زبان فارسی می پردازیم و با ارائه تحلیلی بر راهکارهای مورد استفاده، سیستم هایی برای قطعه بندی کلمات و عبارات فارسی به ترتیب با دقت های بیش از 68% و حدود 80% معرفی می نماییم. سیستم قطعه بندی عبارات ارائه شده، نخستین سیستم مبتنی بر یادگیری با شبکه عصبی برای برچسب زنی IOB متون فارسی است.
Keywords:
Authors
سهیلا کیانی
آزمایشگاه پردازش زبان طبیعی، دانشکده مهندسی برق و کامپیوتر دانشگاه ش
مهرنوش شمس فرد
آزمایشگاه پردازش زبان طبیعی، دانشکده مهندسی برق و کامپیوتر دانشگاه ش
مراجع و منابع این Paper:
لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :