پیاده سازی و بررسی نقش کلمات کم تکرار و موازی سازی در کشف اسناد تکراری

Publish Year: 1394
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 686

This Paper With 7 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

ICESCON01_0289

تاریخ نمایه سازی: 25 بهمن 1394

Abstract:

با توجه به گستردگی بحث اسناد تکراری تعاریف مختلف بسیاری وجود دارد که دیگران استفاده کرده اند، و هر یک بسته به مورد استفاده خاص بوده و دارای انگیزه های متفاوتی هستند . به طور کلی، اسناد مشابه اسنادی هستند که فقط کمی در محتوا متفاوت می باشند. با توجه به این تعریف جامعمی توان انواع تعاریف را برای اسناد مشابه در نظر گرفت . بعنوان نمونه سند هایی که فقط در ساختار ظاهری با هم تفاوت دارند و در محتوی اصلیسند یکسان می باشند . یا در حالت دیگر ، اسنادی که به هم ریخته شده اند و اصطلاحا با ویرایش متون در نگاه اول سند تکراری به نظر نمی آید . یا در حالت دیگر ، گاهی اوقات با تغییر عنوان های یک متن از نسخه اول کپی برداری صورت میگیرد. یا در حالت دیگر جزئیات کم اهمیت سند حذف شده ولی محتوای اصلی سند همچنان وجود دارد . بخش عمده ای از کلمات در هر سند کلمات اضافی و اغلب کم معنی و کم ارتباط با محتوای سند هستند از این رو روش پیشنهادی ما عملکرد بهتری در بحث حافظه و سرعت خواهد داشت . عملیاتی که پس از خواندن اطلاعات صورت می گیردشامل شمارش کل کلمات یک سند ، تعداد کلمات کم تکرار آن و همچنین تعداد لغات منحصر به فرد یا همان یکتا می باشد سپس عملیات مقایسه بصورت موازی صورت می گیرد

Authors

جواد گلی

دانشجوی کارشناسی ارشد

حسن نادری

استاد راهنما

مراجع و منابع این Paper:

لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :
  • A. Karpathy.; G .Toderici, ; Shetty, S.; T. Leung., ; ...
  • M .Potthast, . M .Hagen, . T .Gollub, ; M ...
  • P , Martin, December 201 1, Technologies for Reusing Text ...
  • J.G. Conrad and C.P. Schriber., July 2004, Constructing a text ...
  • G.S. Manku, A. Jain, and A. Das Sarma. Detecting near-duplicates ...
  • نمایش کامل مراجع