تشخیص اسناد متنی تکراری چندگانه با بکارگیری الگوریتم رقابت استعماری
Publish Year: 1394
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 665
This Paper With 6 Page And PDF Format Ready To Download
- Certificate
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ICIKT07_065
تاریخ نمایه سازی: 22 مهر 1394
Abstract:
با توجه به پیشرفت چشمگیر حجم اسناد و داده های الکترونیکی، اهمیت و لزوم سازماندهی و مدیریت کارآمد آنها بیش از پیش حس می شود. یکی از موضوعات مورد بحث در این زمینه، یافتن اسناد تکراری در یک مجموعه داده متنی است. روش های مختلفی برای یافتن اسناد مشابه یا تکراری توسط محققان پیشنهاد و بکار برده شده است. اما در مواردی در برخی مجموعه داده ها، از یک نوع سند، تعداد بیشتر از دو نمونه تکراری یا مشابه موجود است. در این نوع کاربرد، هدف یافتن این مجموعه اسناد تکراری بوده که این مسئله، عنوان یافتن اسناد تکراری چندگانه و در حالت کلی شباهت چندگانه اطلاق می گردد. روش های مختلفی برای حل این مسئله پیشنهاد و بررسی شده است، اما به دلیل پیچیدگی محاسباتی بالای آنها و یا به دلیل بالا بودن زمان اجرا، پیاده سازی و بکارگیری آنها روی مجموعه داده های بزرگ عملا امکان پذیر نیست. لذا در این مقاله روشی را برای حل مسئله شباهت چندگانه در یافتن اسناد متنی تکراری، با استفاده از الگوریتم رقابت استعماری پیشنهاد داده ایم. روش پیشنهادی روی مجموعه داده متنی از مجموعه داده های ریوترز مورد آزمایش و بررسی قرار گرفته و نتایج حاصل از آن با روش الگوریتم وراثتی مقایسهشده است. نتایج مقایسات دو روش نشان می دهد که روش ارائه شده در این مطالعه در زمان سریع تری اجرا می شود و در نتیجه، برای گروه های بزرگتری از اسناد تکراری قابل اجرا است و بعلاوه در برخی موارد، جوابه ای بهینه تری در مقایسه با الگوریتم وراثتی تولید می کند.
Keywords:
Authors
مینا میرحسینی
مجتمع آموزش عالی بم
فاطمه بارانی برواتی
مجتمع آموزش عالی بم
مراجع و منابع این Paper:
لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :