استخراج فرادادههای متنی از مقالههای علمی به زبان فارسی با مدل آماری CRF
Publish place: Library and Information Research Journal، Vol: 7، Issue: 1
Publish Year: 1396
Type: Journal paper
Language: Persian
View: 466
This Paper With 18 Page And PDF Format Ready To Download
- Certificate
- I'm the author of the paper
Export:
Document National Code:
JR_LIRJ-7-1_016
Index date: 15 March 2021
استخراج فرادادههای متنی از مقالههای علمی به زبان فارسی با مدل آماری CRF abstract
مقدمه: استخراج فرادادههای متنی از مقالههای علمی به شکل دستی کار زمانبر و پرهزینهای است. وجود تنوع در قالبهای ساختاری مقالات علمی نیز به پیچیدگی مسئله میافزاید. بنابراین، استخراج خودکار فرادادههای متنی از مقالههای علمی به عنوان یک مسئله مطرح است و از الگوریتمهای مختلفی میتوان برای استخراج فرادادهها استفاده کرد. هدف این مقاله ارائهی یک چارچوب برای استخراج فرادادههای متنی از مقالههای علمی به زبان فارسی است. در این پژوهش از مدل آماری سی آر اف برای استخراج فرادادهها استفاده شده است. روششناسی: این مقاله یک پژوهش کاربردی است. در این مقاله با مطالعات کتابخانهای و آزمایش سعی شده است یک چارچوب برای استخراج فرادادهها ارائه شود. چارچوب ارائه شده شامل شناسایی سرآیند و مراجع انگلیسی و فارسی مقاله است. از مدل آماری سی آر اِف برای استخراج فرادادهها از سرآیند و مراجع فارسی و انگلیسی استفاده شده است. با تعریف ویژگیهای مختلف این مدل آماری قابل تغییر است. آزمایش این روش بروی صد مقاله از مجلات علمی- پژوهشی ایران درصد موفقیت آن را نشان میدهد. مدل آماری سی آر اِف در برچسبزنی متن نسبت به مدلهای آماری دیگر مانند مدل مخفی مارکوف دقت بالاتری را ارائه میدهد. از سوی دیگر این مدل بر مبنای آمار و ریاضی برچسبزنی را انجام میدهد. استخراج فرادادهها از مقالات با قالبهای مختلف به کمک آمار نسبت به روشهای مبتنی بر قانون نتایج بهتری را به دنبال دارد. بنابراین استفاده از مدل آماری سی آر اِف برای حل این مسئله مناسب است. یافته ها: برای ارزیابی روش پیشنهاد شده از معیار اِف استفاده شده است. مقدار معیار اِف در این پژوهش برای هر توکن متنی محاسبه شده است. مقدار معیار اِف به شکل میانگین برای فرادادههای سرآیند، فرادادههای مراجع فارسی و فرادادههای مراجع انگلیسی به ترتیب 89/96 درصد، 87/93 درصد و 75/94 درصد است. نتایج این پژوهش با سه پژوهش مشابه در زبان انگلیسی مقایسه شده است. مقایسه میانگین نتایج بهدست آمده نشان میدهد در فرادادههای سرآیند نتایج پژوهش این مقاله بهتر از دو پژوهش انجام شده در زبان انگلیسی است. نتایج استخراج فراداده نویسنده در سرآیند در پژوهشهای زبان انگلیسی بهتر است. برای فراداده چکیده در پژوهش زبان فارسی، نتایج بهتری بهدست آمده است. مقایسه میانگین نتایج استخراج فرادادههای مراجع، نشان میدهد پژوهشهای زبان انگلیسی دقت بالاتری ارائه دادهاند. نتایج استخراج فراداده مؤسسه در مراجع فارسی نسبت به فرادادههای دیگر ضعیفتر است. بحث و نتیجهگیری: بررسی نتایج بدست آمده نشان میدهد که عملکرد مدل آماری سی آر اِف برای استخراج فرادادهها خوب است. بیشترین دقت برای فراداده چکیده با معیار اِف برابر 6/99 درصد است. این فراداده تعداد توکن بسیار بیشتری نسبت به بقیه فرادادهها دارد. دقت فراداده مؤسسه با معیار اِف برابر 95/80 درصد کمتر از بقیه است. دو دلیل در کاهش دقت موثر است. تعداد این فراداده در پیکره متون نسبت به فرادادههای دیگر کمتر است. علاوه بر این کلمات نحوی که در این فراداده بهکار می رود، تنوع بیشتری دارد. در مراجع فارسی اسامی شهرها در فرادادههای مکان و مؤسسه بهکار میرود. این مسئله باعث میشود در برخی از موارد فرادادههای مکان و مؤسسه به اشتباه تشخیص داده شوند. در زبان فارسی کلماتی که به شکل مشترک در فرادادههای مختلف بهکار میروند نسبت به زبان انگلیسی بیشتر است. برای مثال بسیاری از اسامی ایرانی که برای نام افراد بهکار میرود با معانی دیگر در فرادادههای دیگر استفاده میشود. این مسئله ممکن است باعث بروز خطا شود. اکثر خطاهای بهوجود آمده در استخراج فرادادهها مربوط به توکنهایی است که در مرز دو فراداده قرار دارند. تبدیل مقالات علمی فارسی با فرمت پی دی اِف به فرمت متن در موارد زیادی با مشکل رو به رو است و از محدودیتهای این پژوهش به شمار میآید. در این پژوهش مجموعهای از صد مقاله علمی استفاده شد. افزایش تعداد مقالههای علمی و تنوع بیشتر مقالات برای آزمایش میتواند در نتیجهی بدست آمده تاثیر مثبتی داشته باشد. مجموعهای از ویژگیهای متنی در الگوریتمهای برچسبزنی سی آر اِف استفاده میشود. تغییر در این ویژگیها میتواند موجب بهینهسازی روش شود.
استخراج فرادادههای متنی از مقالههای علمی به زبان فارسی با مدل آماری CRF Keywords:
استخراج فرادادههای متنی از مقالههای علمی به زبان فارسی با مدل آماری CRF authors
امیر تن سازان
دانشگاه بین المللی امام خمینی (ره) قزوین
محمد امین مهدوی
دانشگاه بین المللی امام خمینی (ره) قزوین
مراجع و منابع این Paper:
لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :