ارائه یک روش جدید برای تولید سوپرسِن س در شبکه واژگانی وردنت

Publish Year: 1399
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 785

This Paper With 15 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

CONFITC05_010

تاریخ نمایه سازی: 2 آذر 1399

Abstract:

وردنت به عنوان یکی از بزرگترین پایگاه داده های واژگانی، در بسیاری از پژوهش های مربوط به پردازش زبان طبیعیمورد استفاده قرار گرفته است. این شبکه واژگانی بزرگ و پیچیده علاوه بر کاربردهایی که تا به امروز داشته است از نگاهبرخی پژوهشگران دارای نقاط ضعفی نیز می باشد. این گروه از پژوهشگران بر این باور هستند که شبکه واژگانی وردنت بهصورت ریزدانه است که همین امر می تواند سبب کاهش کارایی در برخی از کارهای مرتبط با پردازش زبان طبیعی ازجمله بازیابی اطلاعات، ترجمه ماشینی، گسترش پرس وجو و ابهام زداها شود. از سویی، وردنت به هر یک از هم نشیم هایموجود در درون خود و در زمان تولید یک برچسب اختصاص داده است که این عمل تماماً توسط زبان شناسان صورتپذیرفته است. مجموع برچسب های اختصاص داده شده به هم نشیم ها عدد 45 را نشان می دهد که بیانگر این موضوع استکه می توان به جای 117 هزار هم نشیم، 45 هم نشیم بزرگتر به نام سوپرسِنس را در بسیاری از کارهای علمی در نظر گرفت.ما در این پژوهش و در یک رویکرد جدید اقدام به تولید 45 سوپرسِنس جدید کردیم. برای مقایسه کیفیت سوپرسِنس هایایجاد شده از یک ابهام زدا به نام UKB که بالاترین دقت در میان ابهام زداهای مبتنی بر متن را در اختیار دارد، بهره گرفتیم.نتایج آزمایش ها نشان می دهند که سنجه-اف حاصل شده از سوپرسِنس های ارائه شده توسط ما بهتر از سوپرسِنس هایایجاد شده توسط انسان عمل کرده است. همچنین، با توجه به کاهش ابعاد گراف وردنت سرعت عملکرد ابهام زدا بیش ازپانصد برابر سریع تر از زمانی است که از وردنت استاندارد با 117 هزار همنشیم استفاده می کند و این در حالی است کهدقت نهایی تنها در حدود یک درصد کاهش می یابد.

Authors

مهرداد محمدیان

دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران

بهروز مینایی بیدگلی

دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران