CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

ارائه یک روش جدید انتخاب ویژگی ترکیبی برای دسته بندی متون با استفاده از روش های یادگیری ماشین

عنوان مقاله: ارائه یک روش جدید انتخاب ویژگی ترکیبی برای دسته بندی متون با استفاده از روش های یادگیری ماشین
شناسه ملی مقاله: ICOCS04_048
منتشر شده در کنفرانس بین المللی مطالعات بین رشته ای در مدیریت و مهندسی در سال 1399
مشخصات نویسندگان مقاله:

فاطمه زیرک - گروه مهندسی کامپیوتر، واحد دزفول، دانشگاه آزاد اسلامی، دزفول، ایران،

خلاصه مقاله:
با رشد و توسعه سریع اینترنت، اطلاعات متنی بسیاری به شکل قابل خواندن توسط کامپیوتر ظهور یافته و به صورت نمایی در حال افزایش است. داده و منبع اینترنت به شکل کاملاً انبوه می باشد. برای اینکه به صورت بهینه از این مقدار داده اسناد زیاد، استفاده و آنها را مدیریت نمود، متن کاوی و بازیابی اطلاعات مبتنی بر محتوا به موضوعی داغ در حوزه مطالعاتی دنیا تبدیل شده است. دسته بندی متن یک پایه و اساس مهم برای بازیابی اطلاعات و متن کاوی می باشد. هدف اصلی این است که سند متنی بر اساس محتوا و نمونه های یادگیری برچسب دار به یک یا چند دسته بندی از پیش تعریف شده، منسوب شود. با افزایش تعداد اسناد دیجیتال موجود در اینترنت در سال های اخیر، امکان کار دستی بر روی چنین اطلاعات حجیمی وجود ندارد. روز به روز متدهای بیشتری بر اساس نظریه آماری و یادگیری ماشین به پردازش اطلاعات خودکار اعمال شده است. دسته بندهای مورد استفاده در این مقاله، نایوبیز چندجمله ای، نایوبیز چندجمله ای با عامل جداکننده، ماشین بردار پشتیبان، شبکه عصبی پس انتشار، K نزدیک ترین همسایه، درخت تصمیم و جنگل تصادفی هستند که به همراه روش های انتخاب ویژگی مربع کای و رپر استفاده می شوند. پیاده سازی روش پیشنهادی با استفاده از نرم افزار وکا انجام شده است. نتایج نشان دهنده بهبود معیار صحت روش پیشنهادی نسبت به سایر روش های پیشین می باشد.

کلمات کلیدی:
متن کاوی، دسته بندی متن، یادگیری ماشین، انتخاب ویژگی، معیار صحت

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1178778/