پیونددهی موجودیت ها با روش بدون نظارت در متون فارسی رسانه های اجتماعی

Publish Year: 1398
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 721

This Paper With 7 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

IRANWEB05_013

تاریخ نمایه سازی: 8 تیر 1398

Abstract:

داده های رسانه های اجتماعی در سال های اخیر به طور نمایی رشد کرده است به طوریکه می توان آن را یکی از بزرگ ترین منابع داده در جهان به شمار آورد. قسمت عمده ای از این داده ها، متون زبان طبیعی هستند. اما زبان طبیعی، بسیار مبهم است. پیونددهی موجودیت، وظیفه ی پیوند یاد کردهای موجودیت در متن به موجودیت های مرتبط به آنها در یک پایگاه دانش است . بیشتر سامانه های پیونددهی موجودیت با جستجوی موجودیت های نامزد شروع کرده و سپس آنها را ابهام زدایی نموده و در نهایت بهترین نامزد را انتخاب می کنند. در سالهای اخیر، به خاطر نبود یک گراف دانش فارسی، این عملیات در زبان فارسی انجام نشده بود. خوشبختانه، در سال 1397 فارس پیس به عنوان یک گراف دانش فار سی با تقریبا نیم میلیون موجودیت معرفی شد. بر این اساس، در این مقاله یک سامانه ی پیونددهی موجودیت فارسی بدون نظارت را با استفاده از ویزگی های وابسته به محتوا و مستقل از محتوا برای پیونددهی موجودیت های یک متن به پایگاه دانش فارس بیس پیشنهاد می کنیم. برای این منظور، اولین پیکره متنی پیونددهی موجودیت بر روی زبان فارسی متشکل از متون رسانه ی اجتماعی را که بر اساس تعدادی از کانال های فارسی معروف در رسانه ی اجتماعی تلگرام ساخته شده است را منتشر می کنیم. نتایج آزمایش، عملکرد بسیار کارآمد این روش پیشنهادی را نشان می دهد که با جدیدترین روش های مربوطه در زبان انگلیسی قابل مقایسه است.

Authors

مجید عسگری بیدهندی

دانشجوی دکتری، دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران، تهران،

بهروز مینایی بیدگلی

دانشیار، دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران، تهران،