ارائه روشی بهینه برای پیش پردازش داده ها در فرآیند وب کاوی سایت های فارسی

محمدرضا حسنی آهنگر; مهدی فیروزمندی

ارائه روشی بهینه برای پیش پردازش داده ها در فرآیند وب کاوی سایت های فارسی

Publish place: 11th International Conference on Information Technology, Computer and Telecommunications

Publish Year: 1399

نوع سند: مقاله کنفرانسی

زبان: Persian

This Paper With 15 Page And PDF Format Ready To Download

دریافت فایل کامل Paper

Certificate
من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

هوش مصنوعی > داده کاوی

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

https://civilica.com/doc/1197106

شناسه ملی سند علمی:

ITCT11_038

تاریخ نمایه سازی: 18 اردیبهشت 1400

Abstract:

وب سایت های فارسی زبان با سرعت بسیار زیادی در حال رشد و افزایش است، براساس آمار وب سایت w۳techs حدود ۳.۲ درصد از کل صفحات وب دنیا به زبان فارسی است. همچنین مطابق اعلام مرکز ثبت پسوندها و دامنه های اینترنتی پژوهشگاه دانش های بنیادی تا پایان سال ۹۸ حدود ۱ میلیون و ۲۰۰ هزار دامنه ir. ثبت شده است. استخراج اطلاعات از این حجم عظیم داده ها می تواند برای سازمان ها و نهادها بسیار کارا و مفید باشد. با به کارگیری تکنیک های داده کاوی می توان به کشف و استخراج خودکار اطلاعات از این وب سایت ها پرداخت. اهمیت کشف الگوها در وب بسیار بالاست و به منظورهای مختلفی این کار می تواند انجام گیرد. در واقع وب کاوی، فرآیند کشف اطلاعات و دانش ناشناخته و مفید از داده های وب است. درست مثل داده کاوی، وب کاوی نیز دارای چهار مرحله است، به عبارتی جمع آوری داده ها، پیش پردازش، کشف دانش و تحلیل دانش. در این مقاله قصد داریم با تمرکز بر روی مرحله پیش پردازش و با استفاده روش Lemmatization ریشه کلمات موجود در وب سایت ها را شناسایی کرده و وزن هر کلمه را با توجه به تعداد تکرار و دسته آن کلمه بدست آوریم این کار به شناسایی و دسته بندی وب سایت ها در دسته های مختلف کمک می کند. اما چالشی که در این کار با آن مواجه هستیم زمان زیادی است که فرآیند Lemmatization با توجه با ماهیت انجام کار آن صرف می کند. برای حل این مشکل، کلمات بدست آمده بعد از مراحل Sentence Segmentation و Tokenization را کاهش دادیم. برای این کار با اضافه کردن ویژگی حذف ایست واژه ها به کتابخانه HAZM، واژه های بی معنا را از میان کلمات توکنایز شده حذف کردیم و سپس کلمات تکراری را با حفظ وزن و تعداد تکرار آن در متن حذف کردیم. با استفاده از این دو اقدام توانستیم زمان صرف شده برای ریشه یابی کلمات به روش Lemmatization را برای یک وب سایت از ۱۰۷ ثانیه به ۴۰ ثانیه کاهش دهیم. و در عین حال کلمات با معنا و مفهوم را با میزان وزن آن حفظ کنیم.

Keywords:

شبکه جهانی وب , داده کاوی , وب کاوی , پیش پردازش

Authors

محمدرضا حسنی آهنگر

دانشیار و عضو هیئت علمی دانشگاه جامع امام حسین (ع)

مهدی فیروزمندی

دانشجو کارشناسی ارشد هوش مصنوعی و رباتیک دانشگاه جامع امام حسین (ع)