یک سیستم مدیریت داده توزیع شده برای پشتیبانی از تحلیل داده های بزرگ مقیاس
Publish place: Sixth National Congress on Electrical Engineering and Computer Engineering of Iran with a New Approach to New Energy
Publish Year: 1398
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 602
متن کامل این Paper منتشر نشده است و فقط به صورت چکیده یا چکیده مبسوط در پایگاه موجود می باشد.
توضیح: معمولا کلیه مقالاتی که کمتر از ۵ صفحه باشند در پایگاه سیویلیکا اصل Paper (فول تکست) محسوب نمی شوند و فقط کاربران عضو بدون کسر اعتبار می توانند فایل آنها را دریافت نمایند.
- Certificate
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
COMCONF06_139
تاریخ نمایه سازی: 24 شهریور 1398
Abstract:
مدیریت داده های توزیع شده یک فن آوری کلیدی برای فعال کردن پردازش و تجزیه و تحلیل داده های حجیم کارآمد در محیط های محاسبه خوشه ای است. به طور خاص، در محیط هایی که حجم داده ها فراتر از توانایی های سیستم است، فایل های داده بزرگ باید توسط نمونه های نمایه با خواص آماری مشابه با مجموعه داده های کل خلاصه شوند. این مقاله یک سیستم مدیریت داده بزرگ BDMS را بر پایه بلوک های داده های نمونه تصادفی توزیع شده پیشنهاد می کند این مدل یک طراحی معماری سطح بالا از BDMS ارایه می دهد که سیستم فایل توزیع جریان را گسترش می دهد. این سیستم عملکردهای مشخصی را برای مدیریت سطح بلوک از قبیل تجزیه و تحلیل آماری، سازماندهی بلوک های داده، وانتخاب بلوک های داده ارایه می دهد. این مقاله همچنین یک طرح تقسیم بندی تصادفی را ارایه می دهد تا یک مجموعه داده بزرگ را به عنوان مجموعه ای از بلوک های داده با هم پوشانی نمایش دهد؛ هر بلوک یک نمونه تصادفی از کل مجموعه داده ها است. براساس این طرح پیشنهادی، دو الگوریتم به عنوان یک استراتژی اجرایی برای تبدیل بلوک های سازنده یک فایل بزرگ به مجموعه ای از بلوک های داده نمونه تصادفی که در HDFS ذخیره شده است، معرفی می شوند. نتایج تجربی نشان می دهد که زمان اجرای عملیات پارتیشن بندی در کاربردهای واقعی قابل قبول است، زیرا این عملیات تنها یکبار در هر فایل داده ورودی انجام می شود.
Authors
سید مجتبی حاجی امینی
دانشجوی کارشناسی ارشد مهندسی کامپیوتر نرم افزار موسسه آموزش عالی بصیر آبیک
محمد حجاریان
موسسه آموزش عالی بصیر آبیک