ارائه روشی برای یافتن اسناد مشابه براساس انتخاب بازه ای برای طول زیررشته ها در روش Shingling
Publish place: 2nd International Conference on Management, Entrepreneurship and Economic Development
Publish Year: 1392
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 960
This Paper With 10 Page And PDF Format Ready To Download
- Certificate
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
EME02_493
تاریخ نمایه سازی: 14 شهریور 1393
Abstract:
یکی از مباحث مطرح در کاوش از مجموعه داده های عظیم، یافتن اسناد مشابه در مجموعه داده ای از اسناد میباشد. روشهای مختلفی برای یافتن اسناد مشابه موجود است. یکی از این روشها، روش Shingling میباشد. در روش Shingling هر سند به یک مجموعه تبدیل میشود. برای این منظور تمام زیررشته های موجود در هر سند انتخاب شده و درون یک مجموعه قرار میگیرند. در این روش طول زیررشته ها یک مقدار ثابت انتخاب میشود. سپس برای یافتن مقدار تشابه دو سند، تشابه جاکارد مجموعه های مربوط به آنها محاسبه میشود. یکی از مشکلاتی که در روش Shingling رایج میباشد، انتخاب مقداری مناسب برای طول زیررشته ها است. طول زیررشته ها معمولاً بر اساس طول اسناد انتخاب میشوند. در این مقاله روشی را برای یافتن اسناد مشابه بر اساس روش Shingling ارائه کردیم که به جای انتخاب یک مقدار برای طول زیررشته ها، از یک بازه استفاده میکند. یعنی برای رسیدن به دقت بالاتر، مقدار تشابه برای چندین طول زیررشته ها محاسبه میشود. در واقع هدف اصلی مقاله ارائه روشی برای تخمین دقیقتر تشابه بین دو سند است.
Keywords:
Authors
حسین ازگومی
کارشناسی ارشد رشته کامپیوتر گرایش نرم افزار، دانشگاه آزاد اسلامی واحد شبستر
معصومه قاسمی ماه سایه
کارشناسی ارشد رشته کامپیوتر گرایش نرم افزار، دانشگاه آزاد اسلامی واحد شبستر