آپاچی اسپارک و افزایش سرعت طبقه بندی در مقالات پزشکی

Publish Year: 1401
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 197

This Paper With 14 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

CECCONF16_019

تاریخ نمایه سازی: 19 شهریور 1401

Abstract:

روزانه مقالات جدیدی در حوزه پزشکی منتشر میشوند. که حاوی اطلاعات غنی هستند و ما با استفاده از روش ها متن کاوی و طبقه بندی سریع و دقیق در مقیاس حجیم به دنبال درک بهتر بیماری ها، تشخیص، پیشگیری و درمان آنها هستیم. برای این کار نیاز هست از اکوسیستم های پردازش کلان داده ها استفاده کنیم که چارچوب مورد نظر ما در اینجا SparkText نامیده میشود که از کتابخانه های آپاچی اسپارک ، روش های پردازش زبان طبیعی و الگوریتم های یادگیری ماشین استفاده میشود تا نتیجه بهتری از نظر زمان در مقایسه با روش های سنتی رقم بخورد.در روش پیشنهادی بررسی های انجام شده بر روی مقالات مرکز PubMed میباشد. در این بررسی از مدل های یادگیری ماشین مانند ماشین بردار پشتیبان ، رگرسیون منطقی و الگوریتم بیزین برای طبقه بندی کردن متون جهت به دست آوردن اطلاعاتی از نوع سرطان پستان، سرطان پروستات و سرطان ریه استفاده شده است. دقت پیش بینی نوع سرطان با الگوریتم رگرسیون منطقی که بر روی ۴۳۷.۲۹ مقاله مورد ارزیابی قرار گرفت، برابر ۷۶.۸۹ درصد بوده که نسبت با سایر الگوریتم ها عملکرد بهتری داشته. همچنین در مقایسه زمان اجرا در روش غیر اسپارک، این کار که در زمانی بیش از ۲۲۰دقیقه انجام شده است، در صورتی که همین مراحل با استفاده از اسپارک بر روی کلاستری با ۵۶ هسته پردازشی در مدتی حدود ۱ دقیقه انجام شده است.

Authors

سعید ناصری

کارشناس ارشد دانشگاه آزاد اسلامی واحد بندرعباس

عباس عکاسی

استاد یار و عضو هیئت علمی دانشگاه آزاد بندرعباس

امین نظارات

استاد یار و عضو هیئت علمی دانشگاه پیام نور مرکز یزد