پیاده سازی روشی موازی جهت کشف نسخه های تکراری اسناد

Publish Year: 1394
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 578

This Paper With 10 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

SENACONF02_028

تاریخ نمایه سازی: 30 آبان 1394

Abstract:

با توجه به گستردگی بحث اسناد تکراری تعاریف مختلف بسیاری وجود دارد که دیگران استفاده کرده اند، و هر یک بسته به مورد استفاده خاص بوده و دارای انگیزه های متفاوتی هستند . به طور کلی، اسناد مشابه اسنادی هستند که فقط کمی در محتوا متفاوت می باشند . با توجه به این تعریف جامع می توان انواع تعاریف را برای اسناد مشابه در نظر گرفت . بعنوان نمونه سند هایی که فقط در ساختار ظاهری با هم تفاوت دارند و در محتوی اصلی سند یکسان می باشند . یا در حالت دیگر ، اسنادی که به هم ریخته شده اند و اصطلاحا با ویرایش متون در نگاه اول سند تکراری به نظر نمی آید . یا در حالت دیگر ، گاهی اوقات با تغییر عنوان های یک متن از نسخه اول کپی برداری صورت میگیرد. یا در حالت دیگر جزئیات کم اهمیت سند حذف شده ولی محتوای اصلی سند همچنان وجود دارد . بخش عمده ای از کلمات در هر سند کلمات اضافی و اغلب کم معنی و کم ارتباط با محتوای سند هستند از این رو روش پیشنهادی عملکرد بهتری در بحث حافظه و سرعت خواهد داشت . عملیاتی که پس از خواندن اطلاعات صورت می گیرد شامل شمارش کل کلمات یک سند ، تعداد کلمات کم تکرار آن و همچنین تعداد لغات منحصر به فرد یا همان یکتا می باشد سپس عملیات مقایسه بصورت موازی صورت می گیرد .

Authors

جواد گلی

دانشجو

مراجع و منابع این Paper:

لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :
  • Karpathy, A.; Toderici, G.; Shetty, S.; Leung, T.; Sukthankar, R.; ...
  • Potthast, M.; Hagen, M.; Gollub, T.; Tippmann, M.; Kiesel, J.; ...
  • Marftin Potthast.Tech nologies for Reusing Text from the Web. Dissertation, ...
  • Haveliwala . T.H, Gionis. A, Indyk. P. Scalable techniques for ...
  • - Broder . A, Charikar. M, Frieze. A, and Mitzenmache. ...
  • stein. B and Sven Meyer zu Eissen. Intrinsic Plagiarism Analysis ...
  • نمایش کامل مراجع