استخراج جملات موازی از دادگان وب

نسرین, براتعلی پور; هشام, فیلی; آزاده, شاکری

استخراج جملات موازی از دادگان وب

عنوان مقاله: استخراج جملات موازی از دادگان وب
شناسه ملی مقاله: JR_PAZAND-8-30_002
منتشر شده در در سال 1391

مشخصات نویسندگان مقاله:

نسرین براتعلی پور - دانشجوی کارشناسی ارشد، دانشکده مهندسی برق و کامپیوتر، دانشگاه تهران
هشام فیلی - استادیار، دانشکده مهندسی برق و کامپیوتر، دانشگاه تهران
آزاده شاکری - استادیار، دانشکده مهندسی برق و کامپیوتر، دانشگاه تهران

خلاصه مقاله:

پیکره های موازی یکی از منابع با ارزش در بسیاری از کاربردهای پردازش زبان طبیعی و همچنین بازیابی هوشمند اطلاعات بین زبانی است. لازمه استفاده از این پیکره ها هم ترازی آنها در سطح جمله است، اما جمع آوری و یا تولید این پیکره ها و همچنین هم ترازی آنها بسیار پرهزینه است. با توجه به گستردگی و قابلیت دسترسی رایگان صفحات وب دوزبانه، جمع آوری پیکره های موازی از وب و هم ترازی آنها به صورت خودکار بسیار مطلوب است. در این مقاله برای تولید جملات موازی، ابتدا صفحات وب حاوی جملات موازی انتخاب، سپس ویژگیهای هر زوج جمله فارسی-انگلیسی در این صفحات محاسبه و در نهایت به کمک طبقه بند بیشترین پراکندگی جملات موازی استخراج می شود. یکی از ویژگی های جملات استخراج شده، وابسته نبودن به دامنه و امکان پوشش حوزه های متفاوت معنایی است.

کلمات کلیدی:

پیکره موازی, هم ترازی متون, داده کاوی وب

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1381699/