روش جدید خوشه بندی مستندات متنی الکترونیکی فارسی به کمک واژ-هستان شناسی فارس نت
Publish Year: 1390
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 1,293
This Paper With 8 Page And PDF Format Ready To Download
- Certificate
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
CSCCIT01_146
تاریخ نمایه سازی: 8 بهمن 1390
Abstract:
خوشه بندی یا دسته بندی بدون نظارت با انجام سازماندهی بر روی پیکره های بزرگ متنی، نقش کلیدی در پیمایش و مرور آسان انبوهی از اسناد به خصوص در موتور های جستجو دارد. معمولا استفاده از روش های متعارف افزاری و سلسله مراتبی منجر به خوشه بندی با کیفیت پایین می شود.علت این موضوع آن است که مقایسه اسناد تنها به لحاظ شباهت ظاهری کلمات داخل انها صورت می پذیرد، به طوری که به روابط کلمات توجهی نشده و تلاشی برای رفع ابهام از معانی کلمه صورت نمی گیرد.در این مقاله، زبان فارسی با توجه به رشد روز افزون مستندات الکترونیکیبه این زبان، مورد توجه قرار گرفته است. ایده اصلی یافتن توضیحات مناسب برای دانش پس زمینه و غنی سازی متن فارسی با استفاده از آن است. برای نیل به این مقصود از منبع دانش خارجی به نام واژ-هستان شناسی فارس نت استفاده شده است. همچنین برای خوشه بندی بر رهیافت فاکتورگیری نا منفی ماتریس (NMF) تاکید شده است. نتایج ارزیابی ها بر روی پیکره ی متنی همشهری، نشان از بهبود کیفیت خوشه بندی متن فارسی غنی شده (به خصوص با رابطه شمول) در مقایسه با خوشه بنی خام دارد. همچنین تاثیر این روابط در کیفیت خوشه بندی بر پایه NMF بیشتر از خوشه بندی متعارف Bisecting Kmeans بوده است.
Keywords:
خوشه بندی متنی , تحلیل معنایی , واژ-هستان شناسی فارس نت , رفع ابهام از معانی کلمه , فاکتور گیری نا منفی ماتریس
Authors
محمد زنجانی
دانشگاه شیخ بهایی-دانشکده فنی و مهندسی-گروه کامپیوتر
احمد براآنی دستجردی
دانشگاه اصفهان-دانشکده فنی و مهندسی-گروه کامپیوتر
مراجع و منابع این Paper:
لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :