مروری بر مجموعه داده های استنتاج زبان طبیعی در زبان های کم منبع غیرانگلیسی

Publish Year: 1400
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 517

This Paper With 10 Page And PDF and WORD Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

RSETCONF07_022

تاریخ نمایه سازی: 11 شهریور 1400

Abstract:

با گسترش استفاده از تکنولوژی در دنیا، روزانه صدها کتاب، سند، نامه، متن علمی و غیرعلمی در رشته هایمختلف به صورت دیجیتال تولید میشود. حجم این متون آنقدر زیاد شده است که پژوهشگران علومکامپیوتر، برای تجزیه و تحلیل این متون وظایف مهمی را در هوش مصنوعی معرفی کرده اند. استنتاج زبانطبیعی یکی از این وظایف است که در آن ماشین به دسته بندی ارتباط دو عبارت «مقدم» و «تالی» درسه کلاس «دلالت»، «خنثی» و «تضاد» می پردازد. با اینکه اخیرا پیشرفت های زیادی در زمینه ی استنتاج زبان طبیعی انجام شده است، اما اکثر این پیشرفت ها محدود به زبان پرمنبع انگلیسی است و سایر زبان هایدنیا به خصوص زبان های کم منبع از توسعه در این مسیر عقب مانده اند. دلیل اصلی آن وجودمجموعه داده های بزرگ و مناسب استنتاج در زبان انگلیسی و عدم وجود، حجم کم یا کیفیت پایین اینمجموعه داده ها در اکثر زبان های غیرانگلیسی برای آموزش مدل های استنتاج می باشد. در این پژوهش، مامجموعه داده های غیرانگلیسی که اکثرا از زبان های کم منبع می باشند و به روش های اتوماتیک، نیمه اتوماتیکو دستی تولید شده اند را مرور کرده ایم. ما همچنین این مجموعه داده ها را از ابعاد مختلف از جمله زبان،منبع اصلی، موضوعات، شیوه ی جمع آوری، نوع برچسب و تعداد نمونه ها بررسی کرده و برخی از مهمترینمشکلات موجود در آنها را تجزیه و تحلیل کرده ایم. یافته های این پژوهش، علاوه بر کمک به محققینحوزه ی استنتاج زبان طبیعی در جهت انتخاب مجموعه داده ی مناسب، راهنمایی برای طراحی پروتکلجمع آوری مجموعه داده های جدید در زبان های مختلف دنیا به خصوص زبان های کم منبع می باشد.

Authors

محمد آذری جعفری

کارشناسی ارشد مهندسی فناوری اطلاعات، دانشکده فنی و مهندسی، دانشگاه قم