ارائه روشی جدید برای تشخیص جملات متشابه با استفاده از روش های یادگیری ماشین

سعید جعفری ولدانی; هادی خسروی فارسانی; تقی جاودانی گندمانی

ارائه روشی جدید برای تشخیص جملات متشابه با استفاده از روش های یادگیری ماشین

Publish place: National Conference on the Latest Achievements in Data Engineering and Soft Knowledge and Computing

Publish Year: 1400

نوع سند: مقاله کنفرانسی

زبان: Persian

This Paper With 7 Page And PDF Format Ready To Download

دریافت فایل کامل Paper

Certificate
من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

هوش مصنوعی > یادگیری ماشین

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

https://civilica.com/doc/1307660

شناسه ملی سند علمی:

CONFSKU01_004

تاریخ نمایه سازی: 17 آبان 1400

Abstract:

با افزایش روزافزون وسایل ارتباطی اعم از کامپیوترهای شخصی، دستگاههای کتاب خوان، موبایل ها و دیگر وسایل ارتباطی، حجم زیادی از اطلاعات در حال تولید و انتشار می باشد. این حجم از داده ها، در مواقعی مانند کشف سرقت علمی، بازیابی جملات متشابه به یک درخواست، پاسخ به پرسش های کاربر، اعتبارسنجی مقالات نسبت به دیگر مقالات و دیگر موارد مربوط به بازیابی اطلاعات، نیاز به مقایسه و تشخیص میزان شباهت دارند. بر همین اساس، در این پژوهش سعی شده روشی ارائه شود که قادر به تشخیص شباهت جملات یک جفت سند با دقت بالا در زبان فارسی باشد.روش پیشنهادی این پژوهش شامل سه زیر مرحله است. در مرحله اول جفت سند منبع و مشکوک به واحدهای کوچک تری به نام جمله، سپس به واحدهای کوچک تر از جمله به نام کلمه تقسیم بندی شدند. پس از آن کلمات تهیه شده به منظور شباهت یابی برداری به بردار کلمات تبدیل شدند. در مرحله دوم، یک خزنده با اندازه ثابت بر روی دو متن منبع و مشکوک حرکت کرده و هرکجا شباهت یکسان بین دو قسمت (به اندازه طول خزنده) از متن وجود داشت، هر قسمت از دو متن را از دو طرف گسترش داده و اقدام به بررسی شباهت بین آنها می کند. در مرحله سوم قسمت های استخراج شده که شباهت بیشتر از حد آستانه داشته و در نزدیکی یکدیگر قرار داشته باشند، به منظور یکپارچه سازی و کاهش قسمت های پراکنده با یکدیگر ادغام شده و نتیجه گیری نهایی انجام شد. مشاهده شد که مدل پیشنهادی به دلیل ترکیب روش های شباهت یابی، توانست بالاترین امتیاز را بر روی دو مجموعه داده معرفی شده کسب کند.

Keywords:

تشخیص سرقت علمی , محاسبه شباهت جملات , یادگیری ماشین , پردازش متن , بازیابی اطلاعات متشابه

Authors

سعید جعفری ولدانی

دانشجوی کارشناسی ارشد، دانشگاه شهرکرد

هادی خسروی فارسانی

استادیار، دانشگاه شهرکرد

تقی جاودانی گندمانی

استادیار، دانشگاه شهرکرد