ارائه روشی جدید برای تشخیص جملات متشابه با استفاده از روش های یادگیری ماشین

Publish Year: 1400
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 294

This Paper With 7 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

CONFSKU01_004

تاریخ نمایه سازی: 17 آبان 1400

Abstract:

با افزایش روزافزون وسایل ارتباطی اعم از کامپیوترهای شخصی، دستگاههای کتاب خوان، موبایل ها و دیگر وسایل ارتباطی، حجم زیادی از اطلاعات در حال تولید و انتشار می باشد. این حجم از داده ها، در مواقعی مانند کشف سرقت علمی، بازیابی جملات متشابه به یک درخواست، پاسخ به پرسش های کاربر، اعتبارسنجی مقالات نسبت به دیگر مقالات و دیگر موارد مربوط به بازیابی اطلاعات، نیاز به مقایسه و تشخیص میزان شباهت دارند. بر همین اساس، در این پژوهش سعی شده روشی ارائه شود که قادر به تشخیص شباهت جملات یک جفت سند با دقت بالا در زبان فارسی باشد.روش پیشنهادی این پژوهش شامل سه زیر مرحله است. در مرحله اول جفت سند منبع و مشکوک به واحدهای کوچک تری به نام جمله، سپس به واحدهای کوچک تر از جمله به نام کلمه تقسیم بندی شدند. پس از آن کلمات تهیه شده به منظور شباهت یابی برداری به بردار کلمات تبدیل شدند. در مرحله دوم، یک خزنده با اندازه ثابت بر روی دو متن منبع و مشکوک حرکت کرده و هرکجا شباهت یکسان بین دو قسمت (به اندازه طول خزنده) از متن وجود داشت، هر قسمت از دو متن را از دو طرف گسترش داده و اقدام به بررسی شباهت بین آنها می کند. در مرحله سوم قسمت های استخراج شده که شباهت بیشتر از حد آستانه داشته و در نزدیکی یکدیگر قرار داشته باشند، به منظور یکپارچه سازی و کاهش قسمت های پراکنده با یکدیگر ادغام شده و نتیجه گیری نهایی انجام شد. مشاهده شد که مدل پیشنهادی به دلیل ترکیب روش های شباهت یابی، توانست بالاترین امتیاز را بر روی دو مجموعه داده معرفی شده کسب کند.

Authors

سعید جعفری ولدانی

دانشجوی کارشناسی ارشد، دانشگاه شهرکرد

هادی خسروی فارسانی

استادیار، دانشگاه شهرکرد

تقی جاودانی گندمانی

استادیار، دانشگاه شهرکرد