یک سیستم مدیریت داده توزیع شده برای پشتیبانی از تحلیل داده های بزرگ مقیاس

سید مجتبی حاجی امینی; محمد حجاریان

یک سیستم مدیریت داده توزیع شده برای پشتیبانی از تحلیل داده های بزرگ مقیاس

Publish place: Sixth National Congress on Electrical Engineering and Computer Engineering of Iran with a New Approach to New Energy

Publish Year: 1398

نوع سند: مقاله کنفرانسی

زبان: Persian

متن کامل این Paper منتشر نشده است و فقط به صورت چکیده یا چکیده مبسوط در پایگاه موجود می باشد.
توضیح: معمولا کلیه مقالاتی که کمتر از ۵ صفحه باشند در پایگاه سیویلیکا اصل Paper (فول تکست) محسوب نمی شوند و فقط کاربران عضو بدون کسر اعتبار می توانند فایل آنها را دریافت نمایند.

Certificate
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

https://civilica.com/doc/923894

شناسه ملی سند علمی:

COMCONF06_139

تاریخ نمایه سازی: 24 شهریور 1398

Abstract:

مدیریت داده های توزیع شده یک فن آوری کلیدی برای فعال کردن پردازش و تجزیه و تحلیل داده های حجیم کارآمد در محیط های محاسبه خوشه ای است. به طور خاص، در محیط هایی که حجم داده ها فراتر از توانایی های سیستم است، فایل های داده بزرگ باید توسط نمونه های نمایه با خواص آماری مشابه با مجموعه داده های کل خلاصه شوند. این مقاله یک سیستم مدیریت داده بزرگ BDMS را بر پایه بلوک های داده های نمونه تصادفی توزیع شده پیشنهاد می کند این مدل یک طراحی معماری سطح بالا از BDMS ارایه می دهد که سیستم فایل توزیع جریان را گسترش می دهد. این سیستم عملکردهای مشخصی را برای مدیریت سطح بلوک از قبیل تجزیه و تحلیل آماری، سازماندهی بلوک های داده، وانتخاب بلوک های داده ارایه می دهد. این مقاله همچنین یک طرح تقسیم بندی تصادفی را ارایه می دهد تا یک مجموعه داده بزرگ را به عنوان مجموعه ای از بلوک های داده با هم پوشانی نمایش دهد؛ هر بلوک یک نمونه تصادفی از کل مجموعه داده ها است. براساس این طرح پیشنهادی، دو الگوریتم به عنوان یک استراتژی اجرایی برای تبدیل بلوک های سازنده یک فایل بزرگ به مجموعه ای از بلوک های داده نمونه تصادفی که در HDFS ذخیره شده است، معرفی می شوند. نتایج تجربی نشان می دهد که زمان اجرای عملیات پارتیشن بندی در کاربردهای واقعی قابل قبول است، زیرا این عملیات تنها یکبار در هر فایل داده ورودی انجام می شود.

Keywords:

داده توزیع شده , هدوب , BDMS , HDFS , سیستم مدیریت داده بزرگ , داده حجیم , پردازش

Authors

سید مجتبی حاجی امینی

دانشجوی کارشناسی ارشد مهندسی کامپیوتر نرم افزار موسسه آموزش عالی بصیر آبیک

محمد حجاریان

موسسه آموزش عالی بصیر آبیک