بومی سازی یک الگوریتم ساده سازی متن برای زبان فارسی مبتنی بر یادگیری عمیق و بدون ناظر

Publish Year: 1399
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 456

نسخه کامل این Paper ارائه نشده است و در دسترس نمی باشد

  • Certificate
  • من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

IISC01_007

تاریخ نمایه سازی: 22 آذر 1400

Abstract:

در پردازش زبان طبیعی، ساده سازی متن عملیاتی است که با انجام تغییراتی در کلمات و ساختار زبانی، متن ورودیکه از لحاظ خوانایی و فهم پذیری دشوار است، به متنی ساده با خوانایی بالا تبدیل می شود. متون فقهی فارسی و عربیعمدتا پیچیده هستند. لذا ابزارهای پردازش زبان روی این نوع از متون کارایی چندانی ندارند. برای رفع این مشکلنیاز به الگوریتم های ساده سازی متن داریم. اکثر الگوریتم های موجود در مرزهای دانش در زبان انگلیسی به صورت باناظر آموزش می بینند. یکی از مشکلات عمده در آ نها فراهم کردن مجموعه دادگان طلایی است که تهیه آن زمان گیرو هزینه بر است. در حال حاضر چنین دادگانی برای زبان فارسی و عربی موجود نیست، لذا بومی سازی روش های بدونناظر برای زبان فارسی و عربی منطقی تر به نظر می رسد.در این مقاله ما با بومی سازی یک روش ساده سازی متن بدون ناظر روزآمد برای زبان فارسی، برای اولین بار عملیاتساده سازی متن در زبان فارسی را اجرا می کنیم. روش استفاده شده، برای آموزش نیاز به یک پیکره بزرگ دارد که درآن بدون دخالت انسانی و با کمک یک معیار ریاضی ساده، جملات سخت و ساده برچسب گذاری شده باشند. به اینمنظور، معیار مورد نظر را برای زبان فارسی تعریف می کنیم و پیکره مورد نظر را با استفاده از پیکره دادگان فارسیمیراث می سازیم. روش استفاده شده، یک روش شبکه عصبی عمیق بدون ناظر است و از یک رمزگذار اشتراکی و یکجفت رمزگشا ساخته شده که دانش ساده سازی را از طریق اتلاف های مبتنی بر طبقه بند و متخاصم بدست می آورند.این روش را با استفاده از پیکره ساخته شده آموزش می دهیم و به ساده سازی متون پرداخته و نتایج را گزارش می کنیم.برای ارزیابی عملکرد الگوریتم با معیار ها متداول سنجش الگوریتم های ساده سازی متن، وجود یک پیکره طلایی کوچکلازم است که ما برای اولین بار این پیکره آزمایشی کوچک را برای این کار ساخته ایم.

Authors

ملیکا حامیان

عضو هیئت علمی دانشگاه پیام نور، کارشناسی ارشد مهندسی کامپیوتر گرایش هوش مصنوعی

بهروز جان فدا

دانشجو، کارشناسی ارشد مهندسی کامپیوتر گرایش نرم افزار

سیدعلی حسینی

دکترا؛ پژوهشگر پسادکتری در رشته هوش مصنوعی، گرایش پردازش دانش

بهروز مینایی بیدگلی

دانشیار، (دانشگاه علم وصنعت ایران) دکتری هوش مصنوعی