روش جدید خوشه بندی مستندات متنی الکترونیکی فارسی به کمک واژ-هستان شناسی فارس نت

محمد زنجانی; احمد براآنی دستجردی

روش جدید خوشه بندی مستندات متنی الکترونیکی فارسی به کمک واژ-هستان شناسی فارس نت

Publish place: 1st Conference on Computer, Communication, and Information Technology

Publish Year: 1390

نوع سند: مقاله کنفرانسی

زبان: Persian

This Paper With 8 Page And PDF Format Ready To Download

دریافت فایل کامل Paper

Certificate
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

https://civilica.com/doc/132125

شناسه ملی سند علمی:

CSCCIT01_146

تاریخ نمایه سازی: 8 بهمن 1390

Abstract:

خوشه بندی یا دسته بندی بدون نظارت با انجام سازماندهی بر روی پیکره های بزرگ متنی، نقش کلیدی در پیمایش و مرور آسان انبوهی از اسناد به خصوص در موتور های جستجو دارد. معمولا استفاده از روش های متعارف افزاری و سلسله مراتبی منجر به خوشه بندی با کیفیت پایین می شود.علت این موضوع آن است که مقایسه اسناد تنها به لحاظ شباهت ظاهری کلمات داخل انها صورت می پذیرد، به طوری که به روابط کلمات توجهی نشده و تلاشی برای رفع ابهام از معانی کلمه صورت نمی گیرد.در این مقاله، زبان فارسی با توجه به رشد روز افزون مستندات الکترونیکیبه این زبان، مورد توجه قرار گرفته است. ایده اصلی یافتن توضیحات مناسب برای دانش پس زمینه و غنی سازی متن فارسی با استفاده از آن است. برای نیل به این مقصود از منبع دانش خارجی به نام واژ-هستان شناسی فارس نت استفاده شده است. همچنین برای خوشه بندی بر رهیافت فاکتورگیری نا منفی ماتریس (NMF) تاکید شده است. نتایج ارزیابی ها بر روی پیکره ی متنی همشهری، نشان از بهبود کیفیت خوشه بندی متن فارسی غنی شده (به خصوص با رابطه شمول) در مقایسه با خوشه بنی خام دارد. همچنین تاثیر این روابط در کیفیت خوشه بندی بر پایه NMF بیشتر از خوشه بندی متعارف Bisecting Kmeans بوده است.

Keywords:

خوشه بندی متنی , تحلیل معنایی , واژ-هستان شناسی فارس نت , رفع ابهام از معانی کلمه , فاکتور گیری نا منفی ماتریس

Authors

محمد زنجانی

دانشگاه شیخ بهایی-دانشکده فنی و مهندسی-گروه کامپیوتر

احمد براآنی دستجردی

دانشگاه اصفهان-دانشکده فنی و مهندسی-گروه کامپیوتر

مراجع و منابع این Paper:

لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :

م. شمس‌فرد و ا. عبدالله زاده بارفروش, "استخراج دانش مفهومی ...
R. M. Aliguliyev, "Clustering of document collection-A weighting approach, " ...
J. Han and M Kamber, in Data mining: concepts and ...
L. Jing, L. Zhou, M. K. Ng, and J. Z. ...
A. Hotho, S. Staab, and G. Stumme, Text clustering based ...
M. Shamsfard et al., "Semi Automatic Development Of FarsNet: The ...
N. Indurkhya and F. J Damerau, Handbook of natural language ...
M. R. Davarpanah, M. Sanji, and M. Aramideh, "Farsi lexical ...
P. McNamee, C. Nicholas, and J. Mayfield, "Addressing morphological variation ...
D. D. Lee and H. S. Seung, "Learning the parts ...
clustering based _ non-negative matrix factorization, " in Documentء [11] ...
A. Cichocki, R. Zdunek, A. H. Phan, and S. Amari, ...
sense disambiguation : A survey, " ACM Computing Surveys (CSUR), ...
of a moderm farsi corpus, " in Proceedings of Assessment:ه ...
J. Yoo and S. Choi, "Orthogonal nonnegative matrix tri -factorization ...
C. D. Manning, P. Raghavan, and H. Schitze, Introduction to ...
A. Jadidinejad, F. Mahmoudi, and J. Dehdari, "Evaluation of perstem: ...

نمایش کامل مراجع