CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

دسته بندی اسناد الکترونیکی با استفاده از خوشه بندی

عنوان مقاله: دسته بندی اسناد الکترونیکی با استفاده از خوشه بندی
شناسه ملی مقاله: EDST01_100
منتشر شده در اولین همایش ملی علوم و فناوری های نوظهور و شالوده شکن در حوزه دفاعی در سال 1403
مشخصات نویسندگان مقاله:

علی اکبر صدری - عضو هیئت علمی گروه مهندسی کامپیوتر، دانشگاه امام علی(ع)، تهران، ایران
سحر صدری - دانشجوی کارشناسی ارشد رشته مهندسی برق، دانشگاه ترییت مدرس، تهران، ایران

خلاصه مقاله:
دسته بندی خودکار در دسترسی سریع و مطلوب به اسناد الکترونیکی، اهمیت وی‍‍‍‍‍‍‍‍‍‍ژه ای دارد. روش های معمول در دسته بندی خودکار اسناد الکترونیکی، روش های یادگیری ماشین (هوش مصنوعی) هستند. اگر چه خوشه بندی اسناد، بیشتر در حوزه های متن کاوی و بازیابی اطلاعات کاربرد دارد، امروزه از روش های خوشه بندی، برای افزایش کارایی دسته بندهای متن استفاده می شود. در این مقاله، روشی برای دسته بندی اسناد با استفاده از خوشه بندی اسناد آموزشی براساس مشابهت یا عدم مشابهت کلاس های اسناد، پیشنهاد شده است. در این روش مجموعه اسناد آموزشی اولیه با یکی از روش های خوشه بندی (بر اساس مشابهت یا عدم مشابهت کلاس های اسناد آموزشی) به چند خوشه تقسیم می شود. از روی هر خوشه از اسناد، دسته بندی ساخته شده و با اسناد آزمون مربوط به همان خوشه، ارزیابی می شود. میکرومیانگین نتایج ارزیابی دسته بندهای ساخته شده از روی خوشه ها، نسبت به حالتی که فقط یک دسته بند از روی کل مجموعه آموزش ساخته می شود، حدود ۱۵ درصد افزایش کارایی را براساس معیارهای دقت و بازخوانی نشان می دهد.

کلمات کلیدی:
دسته بندی اسناد، خوشه بندی اسناد، Rocchio، بیزین ساده، SVM

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/2015225/