دستهبندی اسناد متنی حجیم با استفاده از ترکیب درهمساز کمینه وkنزدیکترین همسایه پیشنهادی

Publish Year: 1391
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 1,301

This Paper With 8 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

LNCSE02_033

تاریخ نمایه سازی: 6 اسفند 1391

Abstract:

در دههی گذشته پیشرفتهای زیادی در زمینهی دستهبندی اسناد متنی انجام گرفته و الگوریتمهای زیادی در این زمینه پیشنهاد شده است. در این مقاله به دستهبندی اسناد متنی حجیم پرداخته شده است. روش پیشنهادی به کار بردن درهمساز کمینه 1 به همراه دستهبندk نزدیکترین همسایه 2 میباشد. تابع درهمساز کمینه معمولا برای سرعت بخشیدن در جستجوی جداول، فشردهسازی دادهها و تشخیص رکوردهای تکراری در حجم زیاد داده استفاده میشود [ 3]، اما در این مقاله برای خلاصه کردن اسناد متنی به کار گرفته شده است. استفاده از درهمساز کمینه به همراه یک دستهبند به صورت طبیعی با افت دقت همراهاست، اما در عین حال باعث بالا رفتن سرعت عملیات دستهبندی میشود. در این مقاله برای حل مشکل افت دقت حاصل از درهمساز کمینه، یک دستهبندk نزدیکترین همسایه پیشنهاد شده، که در آن به جای در نظر گرفتن شباهت کسینوسی بین اسناد از شباهت جاکارد استفاده شده است. این دستهبند بر روی 500 سند انتخابی از بین 2000 سند موجود در مجموعه داده انتقادات راجع بهفیلم 3، پیادهسازی شده که 400 سند برای آموزش و 100 سند برای آزمایش در نظر گرفته شده است

Keywords:

دستهبندی اسناد متنی , درهمساز کمینهk نزدیکترین همسایه و تشابه جاکارد

Authors

فاطمه شیخی

گروه مهندسی نرم افزار ، دانشگاه آزاد اسلامی واحد شبستر، ایران

حسن نادری

استادیار دانشگاه علم و صنعت، تهران، ایران

مراجع و منابع این Paper:

لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :
  • Berry, M. W., Castellanos, M., _ Survey of Text Mining: ...
  • Brank J, Mladenic D., Grobelhik M., Milic-Frayling N., "Feure Selection ...
  • CHIU, CH., WANG, H., CHEN, CH., "Fast Min-Hashing Indexing and ...
  • Guyon I., Elisseff A., _ An Introduction to Variable and ...
  • Indyk, P., "On Approximate Nearest Neighbors in None- Euclidean Spaces, ...
  • Li Y. H., Jain A. K., "Classification of Text Document, ...
  • Lyon _ Malcolm J., Dickerson B., _ Detecting short passages ...
  • McCallum Andrew., Nigam Kamal., _ A Comparison of Event Models ...
  • Rajaraman, A., Ullman, J. D., Mining of Massive Dataset, June, ...
  • Sadowski C., Levin G., _ SimHash: Hash-based Similarity Detection, " ...
  • Spasojevi c L, Poncin G., "Large Scale Page-Based Book Similarity ...
  • Ye, S., Song, R., Wen, J., Ma, W., "A Q ...
  • Yu, C, Ooi, B. C., Tan, K. L. "Indexing the ...
  • Zhou, Sh., Zhang, Zh., Zhou, A, "Sequental Classifiers Combination for ...
  • نمایش کامل مراجع