استخراج بردارهای همبستگی واژ ههای فارسی در یک پیکر ه ی متنی بزرگ از اخبار abstract
یک دسته از اطلاعاتی که در بسیاری از کاربردهای مت نکاوی اهمیت فراوانی دارد، وابستگی بین اجزای متن است. دو دست هی مهم از وابستگی های متنی عبارتند از:
همبستگی (cohesion) و
ارتباط معنایی (Coherence) پدیده ی همبستگی، معادل با این واقعیت است که بعضی عناصر متنی (مانند واژه ها) تمایل دارند که در کنار هم ظاهر شوند، در حالی که پدیده ی
ارتباط معنایی بر این حقیقت اشاره دارد که یک ارتباط هوشمندانه بین جملات متن وجود دارد. شناسایی
همبستگی ساده تر از
ارتباط معنایی است، چرا که با بررسی فراوانی واژه ها و وقوع همزمان آنها قابل شناسایی است. در این مقاله، یک روش جدید برای شناسایی خودکار
همبستگی میان واژه های فارسی ارائه شده است. فرآیند استخراج
همبستگی واژه ها شامل این مراحل است: پیش پردازش و یکسان سازی متن، حذف واژه های عمومی، شناسایی عناصر متنی چندتایی (عناصری متنی که از بیش از یک واژه تشکیل شده اند و در کنار هم معنای جدیدی دارند)، بدست آوردن بردارهای واژه- محتوی (word-context) و تولید بردارهای
همبستگی به ازای هر یک از اسم های ساده و مرکب. پیاده سازی روش پیشنهادی برای استخراج بردارهای
همبستگی روی یک مجموعه ی بزرگ از اخبار جمع آوری شده از خبرگزاری ایسنا نتایج قابل قبولی را نشان می دهد.