مقایسه خوشه بندی متن های یک پیکره موازی فارسی-انگلیسی

Publish Year: 1393
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 527

This Paper With 6 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

SASTECH09_190

تاریخ نمایه سازی: 11 اردیبهشت 1398

Abstract:

خوشه بندی متن در زمینه های مختلف پردازش زبان طبیعی کاربردهای فراوان دارد. تاکنون پژوهشهای مختلفی در این زمینه برای اسناد زبانهای مختلف، از جمله فارسی انگلیسی، انجام شده است. هدف این پژوهش مقایسه خوشه بندی متنهای همطراز فارسی انگلیسی میباشد. در این پژوهش پس از استخراج بردارهای ویژگی با روشی یکسان از جمله های همطراز دو زبان فارسی انگلیسی، اعمال روش PCA به این بردارها، با استفاده از روش -Kمیانگین خوشه بندی انجام شده است. نتایج حاصل از مقایسه خوشه های این دو زبان نشان داد که تفاوتهای میان دو زبان فارسی انگلیسی بر کیفیت خوشه بندی متنها تاثیر میگذارد. در این آزمایشها خوشه های حاصل از هیچ یک از زبانهای فارسی انگلیسی بر دیگری برتری کامل نداشتند. این امر نشان میدهد که باید بهترین روش خوشه بندی متناسب با ویژگی های هر زبان اتخاذ شود روشی که برای یک زبان مناسب است الزاما برای زبانی دیگر نیز انتخاب مناسبی نمیباشد.

Keywords:

خوشه بندی , پیکره موازی دو زبانه میزان , -Kمیانگین , تحلیل مولفه های اصلی (PCA)

Authors

عاطفه خزاعی

دانشجوی دکتری مهندسی کامپیوتر، دانشگاه یزد، یزد، ایران

محمد قاسم زاده

عضو هییت علمی دانشگاه یزد، یزد، ایران