تشخیص زبان به منظور دسته بندی و پالایش مبتنی بر محتوای صفحات وب

سامان باشباغی; عبدالحمید پیله ور

تشخیص زبان به منظور دسته بندی و پالایش مبتنی بر محتوای صفحات وب

Publish place: 3rd Iranian Conference on Electrical and Electronics Engineering

Publish Year: 1390

نوع سند: مقاله کنفرانسی

زبان: Persian

This Paper With 7 Page And PDF Format Ready To Download

دریافت فایل کامل Paper

Certificate
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

https://civilica.com/doc/125387

شناسه ملی سند علمی:

ICEEE03_155

تاریخ نمایه سازی: 18 مهر 1390

Abstract:

با توجه به گسترش اسنادی که روزانه به زبانهای مختلف روی اینترنت قرار میگیرند مساله تشخیص زبان خودکار متون اهمیت می یابد دراین مقاله از سیستم تشخیص زبان به منظور دسته بندیو پالایش صفحات غیراخلاقی وب براساس محتوا استفاده کرده ایم این سیستم قابلیت تشخیص 10 زبان پرکاربرد در صفحات غیراخلاقی وب از جمله زبان فارسی را دارا می باشد بدین منظور یک روش ترکیبی جدید پیشنهاد شده است که از سه قسمت پردازش URL پردازش Encoding صفحه و پردازش متن موجوددر صفحه تشکیل شده است این سیستم همچنین دارای یک رای دهنده است که نتایج هر سه قسمت را برای تولید خروجی مناسب ترکیب می کند. همچنین از مجموعه وب سایت های غیراخلاقی تهیه شده و برچسب خورده به عنوان مجموعه داده ها جهت ایجاد یک مدل زبانی برای هر زبان و ارزیابی سیستم پیشنهادی بهره گرفته ایم که به میانگین دقتی در حدود 95% رسیده ایم.

Keywords:

دسته بندی متن , تشخیص خودکار زبان , پالایش صفحات وب , وب سایت های غیراخلاقی و تصفیه محتوایی متون

Authors

سامان باشباغی

آزمایشگاه مهندسی زبان گروه کامپیوتر دانشگاه بوعلی سینا همدان

عبدالحمید پیله ور

مراجع و منابع این Paper:

لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :

J. Ropelato, Internet Pornography Statistics, TopTenRevi eWs, 2007. ...
G. Churcher, Distinctive character sequences, Personal communic ation, 1994. G. ...
identification schemes"، In Proceedings of JADT 1995، 3rd International Conference ...
text N-gram-basedء [4] W.B. Cavnar، J. M. Trenkle _ categorization"، ...
Eda Baykan, Monika Henzinger, Ingmar Weber, _ page language identification ...
Lena Grothe, Ermesto William De Luca and Andreas Nurberger, _ ...
Penelope Sibun, Jeffery C. Reynar, "Language Identification. Examining the Issue", ...
Lins, R. and Gonxalves, P.: Automatic Language Identification of Written ...

نمایش کامل مراجع