CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

یک روش وزن دهی مبتنی بر موقعیت واژه جهت مشابهت سنجی اسناد

عنوان مقاله: یک روش وزن دهی مبتنی بر موقعیت واژه جهت مشابهت سنجی اسناد
شناسه ملی مقاله: ITCC02_215
منتشر شده در دومین کنفرانس بین المللی و سومین همایش ملی کاربرد فناوری های نوین در علوم مهندسی در سال 1394
مشخصات نویسندگان مقاله:

مریم اسدی لنگرودی - دانشجوی کارشناسی ارشد مهندسی فناوری اطلاعات ، گروه کامپیوتر، پردیس دانشگاه گیلان ، رشت
سیدابوالقاسم میرروشندل - استادیار دانشگاه، گروه کامپیوتر ، دانشگاه گیلان ، رشت

خلاصه مقاله:
اندازه گیری میزان شباهت اسناد موجود در وب، از آن جهت دارای اهمیت است که دربسیاری از زمینه ها، مانندبازیابی اطلاعات، دسته بندی متون، خوشه بندی اسناد، سیستم های تشخیص تقلب و سرقت ادبی، خلاصه سازیمتون، و سایر حوزه ها، نقش مهم و اساسی ایفا می کند. در تمام روشهای مشابهت سنجی اسناد، اصول کار،تشخیص شباهت سندها بر مبنای شناخت دقیق ویژگی های مشترک است. در مدل مشابهت سنجی لغوی، اسنادبه صورت برداری از وزن واژه های آن در یک فضای برداری با ابعاد بالا نمایش داد می شوند. روشهایوزن دهی واژه در استخراج ویژگی های شاخص اسناد و مشابهت سنجی آنها، بسیار تاثیر گذار است. مهمترین وپرکاربردترین طرح وزن دهی واژه در فضای برداری اسناد، طرح TF-IDF است. این طرح اگرچه دارای دقت و فراخوانی بالا است، دارای کاستی هایی است. یکی از موارد مهم که در این طرح در نظر گرفته نمی شود،موقعیت واژه در سند است. در این مقاله، هدف اصلی، ارایه روشی بهبودیافته در وزندهی واژه، برای تعیینمیزان شباهت لغوی اسناد متنی است. روش وزن دهی پیشنهادی بر مبنای طرح TF-IDF و با تاکید بر اهمیت بیشتر واژه های خطوط ابتدایی اسناد، توانسته است، دقت و فراخوانی را در دسته بندی و میزان صحت را در خوشه بندی اسناد مجموعه TDT5 افزایش دهد.

کلمات کلیدی:
شباهت اسناد، مشابهت سنجی لغوی، وزندهی، مدل فضای برداری، TF-IDF

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/501843/