روشی برای طبقه بندی داده ها با استفاده از الگوریتم های داده کاوی داده های بزرگ abstract
طبقه بندی در واقع ارزشیابی ویژگی های مجموعه ای از داده ها و سپس اختصاص دادن آنها به مجموعه ای از گروه های از پیش تعریف شده است. این متداول ترین قابلیت
داده کاوی می باشد. مسائل
طبقه بندی به شناسایی خصوصیاتی منجر می شوند که مشخص می نمایند هر مورد به کدام گروه تعلق دارد.این الگو هم می تواند برای فهم داده موجود و هم برای پیش بینی اینکه هر نمونه جدید چگونه کار می کند استفاده شود.ماشین بردار پشتیبان SVM1 نسبت به سایر روش های
طبقه بندی دارای ویژگی های مهمی مانند پیش زمینه قوی ریاضی و قابلیت و توانایی تعمیم بهتر می باشد. از سوی دیگر، مهم ترین اشکال SVM در مرحله آموزش آن است، که انجام محاسبات آن پرهزینه و به شدت به اندازه مجموعه داده های ورودی وابسته است. در این تحقیق، یک الگوریتم جدید برای سرعت بخشیدن به زمان آموزش SVM ارائه شده است. در این مدل یک مقدار کوچک داده به عنوان نماینده ای از مجموعه داده برای بهبود بخشیدن به زمان آموزش SVM انتخاب می شود. روش جدید با استفاده از یک درخت استقرا، مجموعه داده های آموزشی مربوط به SVM را کاهش می دهد تا یک الگوریتم بسیار سریع و با دقت بالا تولید کند. روش پیشنهادی ازیک فیلتر داده مبتنی بر درخت تصمیم گیری استفاده می کند تا کل داده ها رو اسکن کرده و یک زیر مجموعه کوچک از نقاط داده بدست آورد. نتایج آزمایشات بر روی مجموعه داده های ایجاد شده (مصنوعی) و واقعی نشان می دهد که روش مطرح شده برای مجموعه داده های بزرگ، قابل مقایسه است تا زمانیکه دقت بالایی در
طبقه بندی داشته باشد.