CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

ارائه الگوریتمی جدید برای یادگیری قواعد استخراج اطلاعات از متن 

عنوان مقاله: ارائه الگوریتمی جدید برای یادگیری قواعد استخراج اطلاعات از متن 
شناسه ملی مقاله: CSICC15_268
منتشر شده در پانزدهمین کنفرانس کامپیوتر سالانه انجمن کامپیوتر ایران در سال 1388
مشخصات نویسندگان مقاله:

مجتبی شکری - کارشناسی ارشد نرم افزار دانشگاه صنعتی امیرکبیرهیئت علمی دانشگاه آزا
احمد عبداله زاده - هیئت علمی دانشکده مهندسی کامپیوترو فناوری اطلاعات دانشگاه صنعتی ام

خلاصه مقاله:
با رشد سریع حجم متون قابل دسترس به خصوص در شبکه ی جهانی اینترنت، کار استخراج اطلاعات از متن اهمیت روز افزون یافته است. عملیات اصلی سیستم های استخراج اطلاعات از دو مرحله ساخت پایگاه دانش مورد نیاز برای استخراج اطلاعات و استفاده از پایگاه دانش برای استخراج اطلاعات از متون ورودی تشکیل شده است. در این مقاله برای تولید خودکار پایگاه دانش مورد نیاز الگوریتمی ارائه شده است که می تواند قواعد لازم برای استخراج اطلاعات از متون نیم هساختارمند (مانند صفحات وب) را در طول یک فرآیند یادگیری بانظارت تولید کند.در این الگوریتم که یک الگوریتم استقرای قاعده است، از یک قاعده عمومی شروع می شود و بر اساس ورودی و خروجی هایی که درمثال های آموزشی وجود دارد و نیز معیارهای ارزیابی قواعد، آن قاعده اختصاصی تر و دقیق تر می شود. تعریف معیارهای جدید ATP,AATP برای مقایسه و ارزیابی قواعد استخراج اطلاعات، تعریف پس پردازش نهایی برای بهتر کردن قاعده و استفاده از یادگیری به روش تعاملی با کاربر برای بدست آوردن نتیجه بهتر از دیگر موارد طراحی شده در این الگوریتم است. هر قاعده استخراج اطلاعات به صورت الگویی است که باید در متن جستجو شود و در صورت تطبیق با قسمتی از متن، اطلاعات مورد نیاز بر اساس پارامترهای تعریف شده در الگو استخراج یابد. برای ارزیابی این الگوریتم، نتایج به دست آمده برروی مثالهای آزمایشی با نتایج سیستم WHISK ( یکی از سیستم های موفق در استخراج اطلاعات) مقایسه شده است که بهبود قابل توجهی را در هر دو معیار Recall,Precision نشان میدهد.

کلمات کلیدی:
استخراج اطلاعات از متن، متن کاوی ، وب کاو ی،یادگیری قواعد، استقرای قاعده، سیستم های استخراج اطلاعات از متن

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/79199/