ارائه روشی برای یافتن اسناد مشابه براساس انتخاب بازه ای برای طول زیررشته ها در روش Shingling

Publish Year: 1392
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 960

This Paper With 10 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

EME02_493

تاریخ نمایه سازی: 14 شهریور 1393

Abstract:

یکی از مباحث مطرح در کاوش از مجموعه داده های عظیم، یافتن اسناد مشابه در مجموعه داده ای از اسناد میباشد. روشهای مختلفی برای یافتن اسناد مشابه موجود است. یکی از این روشها، روش Shingling میباشد. در روش Shingling هر سند به یک مجموعه تبدیل میشود. برای این منظور تمام زیررشته های موجود در هر سند انتخاب شده و درون یک مجموعه قرار میگیرند. در این روش طول زیررشته ها یک مقدار ثابت انتخاب میشود. سپس برای یافتن مقدار تشابه دو سند، تشابه جاکارد مجموعه های مربوط به آنها محاسبه میشود. یکی از مشکلاتی که در روش Shingling رایج میباشد، انتخاب مقداری مناسب برای طول زیررشته ها است. طول زیررشته ها معمولاً بر اساس طول اسناد انتخاب میشوند. در این مقاله روشی را برای یافتن اسناد مشابه بر اساس روش Shingling ارائه کردیم که به جای انتخاب یک مقدار برای طول زیررشته ها، از یک بازه استفاده میکند. یعنی برای رسیدن به دقت بالاتر، مقدار تشابه برای چندین طول زیررشته ها محاسبه میشود. در واقع هدف اصلی مقاله ارائه روشی برای تخمین دقیقتر تشابه بین دو سند است.

Authors

حسین ازگومی

کارشناسی ارشد رشته کامپیوتر گرایش نرم افزار، دانشگاه آزاد اسلامی واحد شبستر

معصومه قاسمی ماه سایه

کارشناسی ارشد رشته کامپیوتر گرایش نرم افزار، دانشگاه آزاد اسلامی واحد شبستر