CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

کشف سرقت ادبی در متون فارسی به کمک الگوریتمهای اثرانگشت

عنوان مقاله: کشف سرقت ادبی در متون فارسی به کمک الگوریتمهای اثرانگشت
شناسه ملی مقاله: ICEE21_785
منتشر شده در بیست و یکمین کنفرانس مهندسی برق ایران در سال 1392
مشخصات نویسندگان مقاله:

کبری کامران - دانشگاه آزاد اسلامی واحد علوم و تحقیقات تهران
علی احمدی - دانشگاه صنعتی خواجه نصیرالدین طوسی
فاطمه کاظمی ونهری

خلاصه مقاله:
سرقتادبی یکی از معضلات بزرگ در عصر ارتباطات است. در خیلی لز زبانها از جمله زبان انگلیسی این مساله به طور جدی مورد اهمیت بوده و ابزارهای قدرتمندی برای جلوگیری از این مساله تهیه شده است، اما متاسفانه تاکنون ابزاری برای کشف این مساله در زبان فارسیطراحی نشده است. این مقاله به کشف سرقت ادبی در متون فارسی براساس الگوریتمهای اثرانگشت میپردازد. الگوریتمهای اثرانگشت به خاطر ایجاد ویژگیهای فشرده و صرفا مقایسه این ویژگیها بین اسناد اصل و مشکوک، سرعت بالایی در کشف سرقت ادبی دارند. به منظور افزایش دقت و سرعت کشف سرقت ادبی، میبایست قبل از بکارگیری الگوریتم عملیات پیشپردازش شامل: حذف تگهایhtmlنسخه اینترنتی مقاله، جداسازی کلمات، یکسانسازی، جایگزینی اعداد، حذف واژههای عمومی، و ریشهیابی روی متن صورت گیرد. دراین مقاله چهار الگوریتمRareChunk و SPEX ،Winnowing ،SimHashبررسی و از نظر کارایی در زبان فارسی با یکدیگر مقایسه میشوند. پیادهسازی این الگوریتم- ها روی سیصد مقالات ثبت شده در پایگاه داده نور با موضوعات هنر، تاریخ و روانشناسی، نتایج قابل قبولی را نشان میدهد.

کلمات کلیدی:
سرقت ادبی، اثرانگشت ,RareChunk ، SPEX ،winnowing ، simHash

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/208842/