رهیافت کاربردی تکنیکهای پردازش زبان طبیعی و خوشه بندی اطلاعات در داده کاوی پایگاه دادهMEDLINE به منظور آنالیز طولی مقالات زیست – پزشکی
Publish place: 1st Iran Data Mining Conference
Publish Year: 1386
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 4,659
This Paper With 11 Page And PDF Format Ready To Download
- Certificate
- من نویسنده این مقاله هستم
این Paper در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
IDMC01_115
تاریخ نمایه سازی: 20 خرداد 1386
Abstract:
پیشرفت تکنولوژی در زمین ه های مختلف و تولیداطلاعات ب ی نظیر و انبوه در شاخ ه های مختلف زیس تشناسی و پزشکی ، موجب توسعه تعداد بسیار زیادی از الگوریت م ها برای پردازش و تحلیل داد ه های زیستی شده است . استفاده از منابع غیر عددی اطلاعات برای کشف لای ه های پنهان زیست شناسی یکی از این رهیافت ها اس ت . در این مقاله طراحی ، گسترش و اجرای رهیافتی برای یکپارچ ه سازی رو ش های مختلف متن کاوی در مقالات پایگاه داده مدلاین به منظور تجزیه و تحلیل طولی مقالات زیست – پزشکی تکنولوژیک را شرح داد هایم. روش پیشنهادی مبتنی بر استفاده از دسترسی پویا بهMEDLINE برای شناسایی آخرین تحقیقات، و ج مع آوری مقالات زیست – پزشکی در یک حوزه خاص تکنولوژیک اس ت . مقالات جمع آوری شده برای تولید فهرستی از واژگان کلیدی پیش پردازش متنی می گردن د . سپس تکنی ک های پردازش زبان طبیع ی(NLP) مانند فیلترهای part of speech و stop-word برای پاکسازی به فهرست اعمال می شوند. براساس فهرست واژگان اختصاصی تولید شده ، هر یک از مقالات تبدیل به برداری از واژگان کلیدی می شون د . بردارهای به دست آمده به یک الگوریتم خوش ه بندی سلسله مراتبی وارد شده تا مقالات بر اساس فهرست واژگان کلیدی به صورت طبیعی گرو هبندی شوند . سپس گروه های ایجاد شده ب ر اساس فاکتورهایی مانند زمان انتشار مقاله به صورت طولی تجزیه و تحلیل می شوند و در مرحله نهایی یا تجسم سازی(visualization) نتایج آنالیز به تصویر در می آین د . هر ، یک از مراحل گفته شده به صورت مستقل برنامه نویسی و به صورت یک نرم افزار رایانه ای پیاده سازی شده اند . برای ارزیابی رهیافت شرح داده شده ، مقالات مدلاین در زمینه تله کاردیولوژی( telecardiology) به عنوان ورودی مورد استفاده قرار گرفتند و بر اساس مراحل گفته شده مورد تجزیه وتحلیل طولی قرار گرفته ، تجسم سازی شدند . ما اعتقاد داریم که تحلی ل های صورت گرفته در این تحقیق برای توسعه و میزان سازی دقیق متدولوژ یهای داده کاوی متنی مقاله های علوم زیست – پزشکی ارزشمند است.
Keywords:
داده کاوی , متن کاوی , خوشه بندی سلسله مراتبی , مدلاین , مقالات زیس ت -پزشکی , پیش پردازش , پاکسازی , تجسم سازی , تله کاردیولوژی
Authors
فرشید مجیدفر
دانشگاه صنعتی مالک اشتر – مجتمع دانش گاهی برق و الکترونیک - مهندس الک
فرزان مجیدفر
دانشگاه صنعتی امیرکبیر – دانشکده مهندسی پزشکی - دکترای پزشکی /کارشناس
محمد تفضلی شادپور
دانشگاه صنعتی امیرکبیر – دانشکده مهندسی پزشکی – عضو هیئت علمی (استا