کشف سرقت ادبی در متون فارسی به کمک الگوریتمهای اثرانگشت

Publish Year: 1392
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 1,269

This Paper With 6 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

ICEE21_785

تاریخ نمایه سازی: 27 مرداد 1392

Abstract:

سرقتادبی یکی از معضلات بزرگ در عصر ارتباطات است. در خیلی لز زبانها از جمله زبان انگلیسی این مساله به طور جدی مورد اهمیت بوده و ابزارهای قدرتمندی برای جلوگیری از این مساله تهیه شده است، اما متاسفانه تاکنون ابزاری برای کشف این مساله در زبان فارسیطراحی نشده است. این مقاله به کشف سرقت ادبی در متون فارسی براساس الگوریتمهای اثرانگشت میپردازد. الگوریتمهای اثرانگشت به خاطر ایجاد ویژگیهای فشرده و صرفا مقایسه این ویژگیها بین اسناد اصل و مشکوک، سرعت بالایی در کشف سرقت ادبی دارند. به منظور افزایش دقت و سرعت کشف سرقت ادبی، میبایست قبل از بکارگیری الگوریتم عملیات پیشپردازش شامل: حذف تگهایhtmlنسخه اینترنتی مقاله، جداسازی کلمات، یکسانسازی، جایگزینی اعداد، حذف واژههای عمومی، و ریشهیابی روی متن صورت گیرد. دراین مقاله چهار الگوریتمRareChunk و SPEX ،Winnowing ،SimHashبررسی و از نظر کارایی در زبان فارسی با یکدیگر مقایسه میشوند. پیادهسازی این الگوریتم- ها روی سیصد مقالات ثبت شده در پایگاه داده نور با موضوعات هنر، تاریخ و روانشناسی، نتایج قابل قبولی را نشان میدهد.

Authors

کبری کامران

دانشگاه آزاد اسلامی واحد علوم و تحقیقات تهران

علی احمدی

دانشگاه صنعتی خواجه نصیرالدین طوسی