استخراج جملات موازی از دادگان وب
Publish place: Pazand Quarterly، Vol: 8، Issue: 30
Publish Year: 1391
نوع سند: مقاله ژورنالی
زبان: Persian
View: 174
This Paper With 16 Page And PDF Format Ready To Download
- Certificate
- من نویسنده این مقاله هستم
این Paper در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
JR_PAZAND-8-30_002
تاریخ نمایه سازی: 2 بهمن 1400
Abstract:
پیکره های موازی یکی از منابع با ارزش در بسیاری از کاربردهای پردازش زبان طبیعی و همچنین بازیابی هوشمند اطلاعات بین زبانی است. لازمه استفاده از این پیکره ها هم ترازی آنها در سطح جمله است، اما جمع آوری و یا تولید این پیکره ها و همچنین هم ترازی آنها بسیار پرهزینه است. با توجه به گستردگی و قابلیت دسترسی رایگان صفحات وب دوزبانه، جمع آوری پیکره های موازی از وب و هم ترازی آنها به صورت خودکار بسیار مطلوب است. در این مقاله برای تولید جملات موازی، ابتدا صفحات وب حاوی جملات موازی انتخاب، سپس ویژگیهای هر زوج جمله فارسی-انگلیسی در این صفحات محاسبه و در نهایت به کمک طبقه بند بیشترین پراکندگی جملات موازی استخراج می شود. یکی از ویژگی های جملات استخراج شده، وابسته نبودن به دامنه و امکان پوشش حوزه های متفاوت معنایی است.
Keywords:
Authors
نسرین براتعلی پور
دانشجوی کارشناسی ارشد، دانشکده مهندسی برق و کامپیوتر، دانشگاه تهران
هشام فیلی
استادیار، دانشکده مهندسی برق و کامپیوتر، دانشگاه تهران
آزاده شاکری
استادیار، دانشکده مهندسی برق و کامپیوتر، دانشگاه تهران