CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

یک روش وزن‏‎دهی مبتنی بر موقعیت واژه جهت مشابهت سنجی اسناد

عنوان مقاله: یک روش وزن‏‎دهی مبتنی بر موقعیت واژه جهت مشابهت سنجی اسناد
شناسه ملی مقاله: IRANWEB02_012
منتشر شده در دومین کنفرانس بین المللی وب پژوهی در سال 1395
مشخصات نویسندگان مقاله:

مریم اسدی لنگرودی - دانشجوی کارشناسی ارشد مهندسی فناوری اطلاعات ، گروه کامپیوتر، پردیس دانشگاه گیلان
سید ابوالقاسم میرروشندل - استادیار دانشگاه، گروه کامپیوتر دانشگاه گیلان

خلاصه مقاله:
اندازه‎گیری میزان شباهت اسناد موجود در وب، از آن جهت دارای اهمیت است که دربسیاری از زمینه‎ها، مانند بازیابی‎اطلاعات، دسته‎بندی متون، خوشه‎بندی اسناد، سیستم‎های تشخیص تقلب و سرقت ادبی، خلاصه‎سازی متون، و سایر حوزه‎ها، نقش مهم و اساسی ایفا می‎‎‎‎‎‎‎‎‎‎‎‎‎‎کند. میزان درستی این تشخیص، می‎تواند کارایی، دقت و صحت هر یک از فرایندهای مذکور را بالا برد. در تمام روش‎های مشابهت‎سنجی اسناد، اصول کار، تشخیص شباهت سندها بر مبنای شناخت دقیق ویژگی‎های مشترک آنها است. از این‎ رو بازنمود سند بر مبنای ویژگی های بارز آن بسیار با اهمیت است. روش‎های مهم مشابهت‎سنجی اسناد، شامل مدل‎های لغوی و معنایی مبتنی بر محتوا و مدل‎های مبتنی بر ساختار صفحه است. در روش‎های لغوی ،ویژگی اصلی یک سند، وزن واژه‎های آن است. بنابراین وزن‎دهی صحیح واژه، می‎تواند یک گام موثر درنمایش دقیق ویژگی‎های بارز اسناد باشد. در این مقاله، هدف اصلی، ارایه روشی بهبودیافته در وزن‎دهی واژه‎، برای تعیین ‎ میزان شباهت لغوی اسناد متنی است. روش وزن‎دهی پیشنهادی بر مبنای طرح TD - IDF و با تاکید بر اهمیت بیشتر واژه‎های خطوط ابتدایی اسناد، توانسته است، دقت و فراخوانی را در دسته‎بندی و میزان صحت را در خوشه‎بندی اسناد مجموعه TDT5افزایش دهد.

کلمات کلیدی:
شباهت اسناد، معیار شباهت، وزن‎دهی واژه، خوشه‎بندی اسناد، دسته‎بندی اسناد، بازیابی‎اطلاعات، شباهت‎سنجی لغوی، TD - IDF

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/481656/