مدیریت داده های عظیم در موتورهای جستجو

علی محمد زارع بیدکی; فاطمه کاوه یزدی

مدیریت داده های عظیم در موتورهای جستجو

Publish place: Massive Data Conferencing

Publish Year: 1393

نوع سند: مقاله کنفرانسی

زبان: Persian

This Paper With 6 Page And PDF Format Ready To Download

دریافت فایل کامل Paper

Certificate
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

https://civilica.com/doc/754177

شناسه ملی سند علمی:

BIGDATA01_013

تاریخ نمایه سازی: 26 مرداد 1397

Abstract:

از سامانه هایی که با داده ه ای عظیم سروکار دارندموتورهای جستجوی می باشند. مطابق آمار، موتوره ای جستجو یپرکاربرد دنیا مانند گوگل و بینگ میلیاردها صفحه را تحتپوشش قرار داده و چندین میلیارد پرس و جو در روز دریافت می-کنند. برای مثال مطابق آمار ارایه شده توسط موتور جستجو یایرانی پارسی جو، بیش از پانصد میلیون سند فارسی توسط اینموتور خزش شده و قادر است تا دو میلیارد سند را به صورتمتوالی خزش نماید. حجم داده های جمع آور ی شده با سربارنگهداری به بیش از 40 ترابایت می رسد. همچنین تعداد اتصالاتموجود در گراف وب که لازم است جهت رتبه بندی پردازش شوندبه بیش از ده میلیارد داده می رسد. به علاوه تعداد واژه هایی کهمیبایست برای نمایه سازی و جواب دادن به پرس جوی کاربرآماده شوند به بیش از پانصد میلیون واژه رسیده است. طبیعیاست که برای پردازش این حجم بزرگ از داده با چالش هایجدیدی مواجه خواهیم بود و راهکارهای سنتی جوابگو نخواهندبود. در این مقاله ساختار موتورهای جستجو را بررسی کرده وراهکاری استفاده شده برای مدیریت داده های عظیم ارایه خواهد شد.

Keywords:

موتور جستجو , خزشگر , گراف وب , رتبه بندی , پردازش زبانی

Authors

علی محمد زارع بیدکی

آزمایشگاه وب، دانشگاه یزد

فاطمه کاوه یزدی

آزمایشگاه وب، دانشگاه یزد