شناسایی موجودیتهای نامدار در متون فارسی رسانه های اجتماعی با دیدگاه یادگیری ماشین

Publish Year: 1398
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 844

This Paper With 8 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

IRANWEB05_033

تاریخ نمایه سازی: 8 تیر 1398

Abstract:

ش ناسایی موجودیت های نامدار از مهم ترین پیش پردازش ها برای بسیاری از مسائل پردازش زبان طبیعی است. با وجود پژوهش های صورت گرفته در مورد شناسایی موجودیت های نامدار فارسی، عملکرد راه حل های پیشنهادی هنوز با جایگاه کنونی این عملیات در زبان انگلیسی برابری نمی کند. علاوه بر این، بنا بر اطلاعاتی که ما داریم، تمام پیکره های متنی تشخیص موجودیتهای نامدار در فارسی (از جمله ParsNER و ArmanPersoNERCorpus) بر اساس مجموعه ی بیجن خان ساخته شده است، که از محتویات روزنامه ی همشهری، به عنوان محبوب ترین مجموعهی دارای برچسب های ادات سخن در زبان فارسی ایجاد شده است. به این ترتیب، تمام روش های شناسایی موجودیت های نامدار در زبان فارسی، بر روی داده های خبری آموزش داده شده است و این روش ها برای اجرا روی کاربردهای دیگر مانند متون رسانه های اجتماعی به اندازه کافی منعطف نیستند. در این مقاله، پیکره متنی ParsNER - Social معرفی می شود که مبتنی بر مجموعه داده های شبکه های اجتماعی و روشی مبتنی بر میدان های تصادفی شرطی به منظور شناسایی موجودیت های نامدار پیاده سازی شده است. این روش با پیشرفته ترین روش های شناسایی موجودیت های نامدار در زبان فارسی مقایسه شده و نتایج بدست آمده نشان دهنده ی برتری روش پیشنهادی بر آنها است.

Keywords:

شناسایی موجودیت های نامدار , پردازش زبان طبیعی , پیکره متنی رسانه های اجتماعی , زبان فارسی

Authors

مجید عسگری بیدهندی

دانشجوی دکتری، دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران، تهران،

بهروز مینایی بیدگلی

دانشیار، دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران، تهران،