استخراج بردارهای همبستگی واژ ههای فارسی در یک پیکر ه ی متنی بزرگ از اخبار

محسن مشکی; مرتضی آنالویی

استخراج بردارهای همبستگی واژ ههای فارسی در یک پیکر ه ی متنی بزرگ از اخبار

Publish place: 2nd Iran Data Mining Conference

Publish Year: 1387

Type: Conference paper

Language: Persian

This Paper With 6 Page And PDF Format Ready To Download

DOWNLOAD Paper

Certificate
I'm the author of the paper

Export:

Link to this Paper:

https://civilica.com/doc/70486

Document National Code:

IDMC02_096

Index date: 3 April 2009

استخراج بردارهای همبستگی واژ ههای فارسی در یک پیکر ه ی متنی بزرگ از اخبار abstract

یک دسته از اطلاعاتی که در بسیاری از کاربردهای مت نکاوی اهمیت فراوانی دارد، وابستگی بین اجزای متن است. دو دست هی مهم از وابستگی های متنی عبارتند از: همبستگی (cohesion) و ارتباط معنایی (Coherence) پدیده ی همبستگی، معادل با این واقعیت است که بعضی عناصر متنی (مانند واژه ها) تمایل دارند که در کنار هم ظاهر شوند، در حالی که پدیده ی ارتباط معنایی بر این حقیقت اشاره دارد که یک ارتباط هوشمندانه بین جملات متن وجود دارد. شناسایی همبستگی ساده تر از ارتباط معنایی است، چرا که با بررسی فراوانی واژه ها و وقوع همزمان آنها قابل شناسایی است. در این مقاله، یک روش جدید برای شناسایی خودکار همبستگی میان واژه های فارسی ارائه شده است. فرآیند استخراج همبستگی واژه ها شامل این مراحل است: پیش پردازش و یکسان سازی متن، حذف واژه های عمومی، شناسایی عناصر متنی چندتایی (عناصری متنی که از بیش از یک واژه تشکیل شده اند و در کنار هم معنای جدیدی دارند)، بدست آوردن بردارهای واژه- محتوی (word-context) و تولید بردارهای همبستگی به ازای هر یک از اسم های ساده و مرکب. پیاده سازی روش پیشنهادی برای استخراج بردارهای همبستگی روی یک مجموعه ی بزرگ از اخبار جمع آوری شده از خبرگزاری ایسنا نتایج قابل قبولی را نشان می دهد.

استخراج بردارهای همبستگی واژ ههای فارسی در یک پیکر ه ی متنی بزرگ از اخبار Keywords:

همبستگی , ارتباط معنایی , بردار واژه- محتوی , رخداد همزمان

استخراج بردارهای همبستگی واژ ههای فارسی در یک پیکر ه ی متنی بزرگ از اخبار authors

محسن مشکی

دانشکده مهندسی کامپیوتر دانشگاه علم و صنعت ایران

مرتضی آنالویی

دانشکده مهندسی کامپیوتر دانشگاه علم و صنعت ایران