تشخیص زبان به منظور دسته بندی و پالایش مبتنی بر محتوای صفحات وب
Publish Year: 1390
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 1,153
This Paper With 7 Page And PDF Format Ready To Download
- Certificate
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ICEEE03_155
تاریخ نمایه سازی: 18 مهر 1390
Abstract:
با توجه به گسترش اسنادی که روزانه به زبانهای مختلف روی اینترنت قرار میگیرند مساله تشخیص زبان خودکار متون اهمیت می یابد دراین مقاله از سیستم تشخیص زبان به منظور دسته بندیو پالایش صفحات غیراخلاقی وب براساس محتوا استفاده کرده ایم این سیستم قابلیت تشخیص 10 زبان پرکاربرد در صفحات غیراخلاقی وب از جمله زبان فارسی را دارا می باشد بدین منظور یک روش ترکیبی جدید پیشنهاد شده است که از سه قسمت پردازش URL پردازش Encoding صفحه و پردازش متن موجوددر صفحه تشکیل شده است این سیستم همچنین دارای یک رای دهنده است که نتایج هر سه قسمت را برای تولید خروجی مناسب ترکیب می کند. همچنین از مجموعه وب سایت های غیراخلاقی تهیه شده و برچسب خورده به عنوان مجموعه داده ها جهت ایجاد یک مدل زبانی برای هر زبان و ارزیابی سیستم پیشنهادی بهره گرفته ایم که به میانگین دقتی در حدود 95% رسیده ایم.
Keywords:
Authors
سامان باشباغی
آزمایشگاه مهندسی زبان گروه کامپیوتر دانشگاه بوعلی سینا همدان
مراجع و منابع این Paper:
لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :