سیستمی جدید برا ی استخراج اطلاعات از متن AUT-IES

Publish Year: 1387
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 1,692

This Paper With 15 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

این Paper در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

IDMC02_093

تاریخ نمایه سازی: 14 فروردین 1388

Abstract:

با رشد سریع حجم متون قابل دسترسی به خصوص در شبکه های جهانی اینترنت، کار استخراج اطلاعات از متن اهمیت روز افزون یافته است. سیستم جدید استخراج اطلاعات AUT-IES که در آزمایشگاه سیستمهای هوشمند دانشگاه صنعتی امیرکبیر طراحی و پیاده سازی شده است. می تواند در هر سه محدوده متون ساختارمند، نیمه ساختارمند و بدون ساختار مورد استفاده قرار گیرد و بدون استفاده از پردازشات زبان طبیعی، عمل استخراج اطلاعات را انجام دهد. عملیات اصلی سیستم از دو مرحله ساخت پایگاه دانش مورد نیاز برای استخراج اطلاعات و استفاده از پایگاه دانش برای استخراج اطلاعات از متون ورودی تشکیل شده است. معماری سیستم براساس پایگاه دانشی طراحی شده است که از دو مجموعه قواعد استخراج اطلاعات و قواعد پیشگو تشکیل شده است و هر دو مجموعه با استفاده از روشهای یادگیری تولید می شوند. مثالهای آموزشی و ازمایشی سیستم به صورت متن صفحات وب هستند که در دامنه ای خاص از موتورهای جستجو به دست آمده اند. برای تولید قواعد استخراج اطلاعات، الگوریتمی جدید برای یادگیری قواعد براساس استقرای قاعده طراحی شده است که یک الگوریتم یادگیری با نظارت است. در این الگوریتم از یک قاعده عمومی می شود و براساس ورودی و خروجی هایی که در مثالهای آموزشی وجود دارد و نیز معیارهای ارزیابی قواعد، آن قاعده اختصاصی تر و دقیق تر می شود. برای مقایسه قواعد، دو معیار ارزیابی جدید ATP,AATP تعریف شده اند. هر قاعده استخراج اطلاعات به صورت الگویی است که باید در متن جستجو شود و در صورت تطبیق با قسمتی از متن، اطلاعات مورد نیاز براساس پارامترهای تعریف شده در الگو استخراج یابد. برای تولید قواعد پیشگو ازتکنیک قواعد تداعی گر در داده کاوی و الگوریتم استاندارد C4.5 استفاده شده است. از قواعد پیشگو جهت بالاتر بردن احتمال درستی اطلاعات استخراج شده ، پیشگویی اطلاعات استخراج نشده و مقایسه بین قواعد استخراج اطلاعات استفاده شده است. برای ارزیابی سیستم، نتایج به دست آمده بر روی مثالهای آزمایشی با نتایج سیستم WHISK ( یکی از سیستم های موفق در استخراج اطلاعات) مقایسه شده است که بهبود قابل توجهی را در هر دو معیار Recall,Precision نشان می دهد.

Keywords:

استخراج اطلاعات از متن , متن کاوی , داده کاوی , وب کاوی , یادگیری قواعد , قواعد پیشگو , استخراج دانش از پایگاه داده , معماری سیستمهای استخراج اطلاعات از متن