سیویلیکا را در شبکه های اجتماعی دنبال نمایید.

استخراج بردارهای همبستگی واژ ههای فارسی در یک پیکر ه ی متنی بزرگ از اخبار

Publish Year: 1387
Type: Conference paper
Language: Persian
View: 1,778

This Paper With 6 Page And PDF Format Ready To Download

Export:

Link to this Paper:

Document National Code:

IDMC02_096

Index date: 3 April 2009

استخراج بردارهای همبستگی واژ ههای فارسی در یک پیکر ه ی متنی بزرگ از اخبار abstract

یک دسته از اطلاعاتی که در بسیاری از کاربردهای مت نکاوی اهمیت فراوانی دارد، وابستگی بین اجزای متن است. دو دست هی مهم از وابستگی های متنی عبارتند از: همبستگی (cohesion) و ارتباط معنایی (Coherence) پدیده ی همبستگی، معادل با این واقعیت است که بعضی عناصر متنی (مانند واژه ها) تمایل دارند که در کنار هم ظاهر شوند، در حالی که پدیده ی ارتباط معنایی بر این حقیقت اشاره دارد که یک ارتباط هوشمندانه بین جملات متن وجود دارد. شناسایی همبستگی ساده تر از ارتباط معنایی است، چرا که با بررسی فراوانی واژه ها و وقوع همزمان آنها قابل شناسایی است. در این مقاله، یک روش جدید برای شناسایی خودکار همبستگی میان واژه های فارسی ارائه شده است. فرآیند استخراج همبستگی واژه ها شامل این مراحل است: پیش پردازش و یکسان سازی متن، حذف واژه های عمومی، شناسایی عناصر متنی چندتایی (عناصری متنی که از بیش از یک واژه تشکیل شده اند و در کنار هم معنای جدیدی دارند)، بدست آوردن بردارهای واژه- محتوی (word-context) و تولید بردارهای همبستگی به ازای هر یک از اسم های ساده و مرکب. پیاده سازی روش پیشنهادی برای استخراج بردارهای همبستگی روی یک مجموعه ی بزرگ از اخبار جمع آوری شده از خبرگزاری ایسنا نتایج قابل قبولی را نشان می دهد.

استخراج بردارهای همبستگی واژ ههای فارسی در یک پیکر ه ی متنی بزرگ از اخبار Keywords:

استخراج بردارهای همبستگی واژ ههای فارسی در یک پیکر ه ی متنی بزرگ از اخبار authors

محسن مشکی

دانشکده مهندسی کامپیوتر دانشگاه علم و صنعت ایران

مرتضی آنالویی

دانشکده مهندسی کامپیوتر دانشگاه علم و صنعت ایران

مقاله فارسی "استخراج بردارهای همبستگی واژ ههای فارسی در یک پیکر ه ی متنی بزرگ از اخبار" توسط محسن مشکی، دانشکده مهندسی کامپیوتر دانشگاه علم و صنعت ایران؛ مرتضی آنالویی، دانشکده مهندسی کامپیوتر دانشگاه علم و صنعت ایران نوشته شده و در سال 1387 پس از تایید کمیته علمی دومین کنفرانس داده کاوی ایران پذیرفته شده است. کلمات کلیدی استفاده شده در این مقاله همبستگی، ارتباط معنایی، بردار واژه- محتوی، رخداد همزمان هستند. این مقاله در تاریخ 14 فروردین 1388 توسط سیویلیکا نمایه سازی و منتشر شده است و تاکنون 1778 بار صفحه این مقاله مشاهده شده است. در چکیده این مقاله اشاره شده است که یک دسته از اطلاعاتی که در بسیاری از کاربردهای مت نکاوی اهمیت فراوانی دارد، وابستگی بین اجزای متن است. دو دست هی مهم از وابستگی های متنی عبارتند از: همبستگی (cohesion) و ارتباط معنایی (Coherence) پدیده ی همبستگی، معادل با این واقعیت است که بعضی عناصر متنی (مانند واژه ها) تمایل دارند که در کنار هم ظاهر شوند، در ... . برای دانلود فایل کامل مقاله استخراج بردارهای همبستگی واژ ههای فارسی در یک پیکر ه ی متنی بزرگ از اخبار با 6 صفحه به فرمت PDF، میتوانید از طریق بخش "دانلود فایل کامل" اقدام نمایید.