CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

استخراج جملات موازی از دادگان وب

عنوان مقاله: استخراج جملات موازی از دادگان وب
شناسه ملی مقاله: JR_PAZAND-8-30_002
منتشر شده در در سال 1391
مشخصات نویسندگان مقاله:

نسرین براتعلی پور - دانشجوی کارشناسی ارشد، دانشکده مهندسی برق و کامپیوتر، دانشگاه تهران
هشام فیلی - استادیار، دانشکده مهندسی برق و کامپیوتر، دانشگاه تهران
آزاده شاکری - استادیار، دانشکده مهندسی برق و کامپیوتر، دانشگاه تهران

خلاصه مقاله:
پیکره های موازی یکی از منابع با ارزش در بسیاری از کاربردهای پردازش زبان طبیعی و همچنین بازیابی هوشمند اطلاعات بین زبانی است. لازمه استفاده از این پیکره ها هم ترازی آنها در سطح جمله است، اما جمع آوری و یا تولید این پیکره ها و همچنین هم ترازی آنها بسیار پرهزینه است. با توجه به گستردگی و قابلیت دسترسی رایگان صفحات وب دوزبانه، جمع آوری پیکره های موازی از وب و هم ترازی آنها به صورت خودکار بسیار مطلوب است. در این مقاله برای تولید جملات موازی، ابتدا صفحات وب حاوی جملات موازی انتخاب، سپس ویژگی­های هر زوج جمله فارسی-انگلیسی در این صفحات محاسبه و در نهایت به کمک طبقه بند بیشترین پراکندگی جملات موازی استخراج می شود. یکی از ویژگی های جملات استخراج شده، وابسته نبودن به دامنه و امکان پوشش حوزه های متفاوت معنایی است.  

کلمات کلیدی:
پیکره موازی, هم ترازی متون, داده کاوی وب

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1381699/