CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

ارائه یک روش ترکیبی جهت بهبود افزایش دقت دسته بندی اسناد علمی با استفاده از الگوریتم KNN و تکنیک شاخص گذاری معنایی پنهان

عنوان مقاله: ارائه یک روش ترکیبی جهت بهبود افزایش دقت دسته بندی اسناد علمی با استفاده از الگوریتم KNN و تکنیک شاخص گذاری معنایی پنهان
شناسه ملی مقاله: NICE01_030
منتشر شده در اولین کنفرانس ملی ایده های نو در مهندسی کامیپوتر در سال 1394
مشخصات نویسندگان مقاله:

محمد کافیان - دانشجوی کارشناسی ارشد، دانشگاه آزاد اسلامی واحد نجف آباد
مهدی باطنی - استادیار گروه مهندسی کامپیوتر، دانشگاه شیخ بهایی اصفهان

خلاصه مقاله:
در سال های اخیر الگوریتم های زیادی برای مساله دسته بندی اسناد، پیشنهاد شده است که از استراتژی های گوناگونی که اکثراً بر مبنای روش های باناظر می باشند، الگو گرفته اند. در واقع روش های زیادی جهت دسته بندی کردن اسناد ارائه شده اند که بدون توجه به مفاهیم نهفته درون متن، عملیات دسته بندی را انجام می دهند. تکنیک پیشنهادی ما در این مقاله این است ابتدا کلمات مهم و پرتکرار از متن اسناد علمی با استفاده از تکنیک TF-IDF بدست آمده و سپس با مقایسه با مفاهیم و کلمات کلیدی درخت سلسله مراتبی از رشته کامپیوتر، بتوان حوزه های کاری اسناد را بدست آورد و در نهایت با استفاده از یکی از تکنیک های پر کاربرد به نام LSI، از بین حوزه های تشخیص داده شده، بتوان دسته بندی را به طور تخصیص برای هر کدام از اسناد علمی انجام داد. در نهایت با استفاده از الگوریتم KNN، کار دسته بندی را انجام داد.

کلمات کلیدی:
دسته بندی متون، متن کاوی، پردازش زبان طبیعی، الگوریتم KNN

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/418133/