مروری بر مجموعه داده های استنتاج زبان طبیعی در زبان های کم منبع غیرانگلیسی

محمد آذری جعفری

مروری بر مجموعه داده های استنتاج زبان طبیعی در زبان های کم منبع غیرانگلیسی

Publish place: 7th International Conference on Advanced Research in Science, Engineering and Technology

Publish Year: 1400

Type: Conference paper

Language: Persian

This Paper With 10 Page And PDF and WORD Format Ready To Download

DOWNLOAD Paper

Certificate
I'm the author of the paper

Export:

Link to this Paper:

https://civilica.com/doc/1263735

Document National Code:

RSETCONF07_022

Index date: 1 September 2021

مروری بر مجموعه داده های استنتاج زبان طبیعی در زبان های کم منبع غیرانگلیسی abstract

با گسترش استفاده از تکنولوژی در دنیا، روزانه صدها کتاب، سند، نامه، متن علمی و غیرعلمی در رشته هایمختلف به صورت دیجیتال تولید میشود. حجم این متون آنقدر زیاد شده است که پژوهشگران علومکامپیوتر، برای تجزیه و تحلیل این متون وظایف مهمی را در هوش مصنوعی معرفی کرده اند. استنتاج زبانطبیعی یکی از این وظایف است که در آن ماشین به دسته بندی ارتباط دو عبارت «مقدم» و «تالی» درسه کلاس «دلالت»، «خنثی» و «تضاد» می پردازد. با اینکه اخیرا پیشرفت های زیادی در زمینه ی استنتاج زبان طبیعی انجام شده است، اما اکثر این پیشرفت ها محدود به زبان پرمنبع انگلیسی است و سایر زبان هایدنیا به خصوص زبان های کم منبع از توسعه در این مسیر عقب مانده اند. دلیل اصلی آن وجودمجموعه داده های بزرگ و مناسب استنتاج در زبان انگلیسی و عدم وجود، حجم کم یا کیفیت پایین اینمجموعه داده ها در اکثر زبان های غیرانگلیسی برای آموزش مدل های استنتاج می باشد. در این پژوهش، مامجموعه داده های غیرانگلیسی که اکثرا از زبان های کم منبع می باشند و به روش های اتوماتیک، نیمه اتوماتیکو دستی تولید شده اند را مرور کرده ایم. ما همچنین این مجموعه داده ها را از ابعاد مختلف از جمله زبان،منبع اصلی، موضوعات، شیوه ی جمع آوری، نوع برچسب و تعداد نمونه ها بررسی کرده و برخی از مهمترینمشکلات موجود در آنها را تجزیه و تحلیل کرده ایم. یافته های این پژوهش، علاوه بر کمک به محققینحوزه ی استنتاج زبان طبیعی در جهت انتخاب مجموعه داده ی مناسب، راهنمایی برای طراحی پروتکلجمع آوری مجموعه داده های جدید در زبان های مختلف دنیا به خصوص زبان های کم منبع می باشد.

مروری بر مجموعه داده های استنتاج زبان طبیعی در زبان های کم منبع غیرانگلیسی Keywords:

استنتاج زبان طبیعی , پردازش متن , دلالت های متنی , زبان های کم منبع

مروری بر مجموعه داده های استنتاج زبان طبیعی در زبان های کم منبع غیرانگلیسی authors

محمد آذری جعفری

کارشناسی ارشد مهندسی فناوری اطلاعات، دانشکده فنی و مهندسی، دانشگاه قم