یک روش وزن دهی مبتنی بر موقعیت واژه جهت مشابهت سنجی اسناد

Publish Year: 1394
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 505

This Paper With 11 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

ITCC02_215

تاریخ نمایه سازی: 21 شهریور 1395

Abstract:

اندازه گیری میزان شباهت اسناد موجود در وب، از آن جهت دارای اهمیت است که دربسیاری از زمینه ها، مانندبازیابی اطلاعات، دسته بندی متون، خوشه بندی اسناد، سیستم های تشخیص تقلب و سرقت ادبی، خلاصه سازیمتون، و سایر حوزه ها، نقش مهم و اساسی ایفا می کند. در تمام روشهای مشابهت سنجی اسناد، اصول کار،تشخیص شباهت سندها بر مبنای شناخت دقیق ویژگی های مشترک است. در مدل مشابهت سنجی لغوی، اسنادبه صورت برداری از وزن واژه های آن در یک فضای برداری با ابعاد بالا نمایش داد می شوند. روشهایوزن دهی واژه در استخراج ویژگی های شاخص اسناد و مشابهت سنجی آنها، بسیار تاثیر گذار است. مهمترین وپرکاربردترین طرح وزن دهی واژه در فضای برداری اسناد، طرح TF-IDF است. این طرح اگرچه دارای دقت و فراخوانی بالا است، دارای کاستی هایی است. یکی از موارد مهم که در این طرح در نظر گرفته نمی شود،موقعیت واژه در سند است. در این مقاله، هدف اصلی، ارایه روشی بهبودیافته در وزندهی واژه، برای تعیینمیزان شباهت لغوی اسناد متنی است. روش وزن دهی پیشنهادی بر مبنای طرح TF-IDF و با تاکید بر اهمیت بیشتر واژه های خطوط ابتدایی اسناد، توانسته است، دقت و فراخوانی را در دسته بندی و میزان صحت را در خوشه بندی اسناد مجموعه TDT5 افزایش دهد.

Authors

مریم اسدی لنگرودی

دانشجوی کارشناسی ارشد مهندسی فناوری اطلاعات ، گروه کامپیوتر، پردیس دانشگاه گیلان ، رشت

سیدابوالقاسم میرروشندل

استادیار دانشگاه، گروه کامپیوتر ، دانشگاه گیلان ، رشت

مراجع و منابع این Paper:

لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :
  • Junhui, Yang, and Huang Chan. "Keywords Weights Improvement and Application ...
  • Plansangket, Suthira, and John Q. Gan. "A new term weighting ...
  • Wang, Xingheng, Jun Cao, Yao Liu, Shi Gao, and Xue ...
  • نمایش کامل مراجع