استخراج، بررسی و مقایسه باهم آیی کلمه ها از متن خبرهای وبگاه انگلیسی رادیوی صدا و سیما

Publish Year: 1398
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 474

This Paper With 16 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

CEITCONF03_071

تاریخ نمایه سازی: 6 خرداد 1399

Abstract:

باهم آیی عبارتی است که برای رساندن یک مفهوم یا معنی استفاده شده و شامل بیش از یک کلمه است. در این پژوهش به روش های گوناگون به استخراج، بررسی و مقایسه باهم آیی های کلمه ها و دسته بندی آنها از روی بخشی از بایگانی خبرهای وبگاه صدا و سیمای جمهوری اسلامی ایران پرداختیم. پس از گرفتن پایگاه داده خبرها از وبگاه صدا و سیمای جمهوری اسلامی ایران، آنها را پردازش کردیم و داده های غیرخبری را از آن مجموعه حذف کردیم. سپس برچسب های HTML موجود در هر خبر را اصلاح کرده و با استفاده از تابع های آماده موجود در زبان برنامه نویسی پایتون، برچسب های HTML اصلاح شده را از متن اصلی اخبار جدا کردیم. در ادامه کلمه های متن های پالایش شده را به کمک بسته NLTK بر پایه نقش آنها در جمله، برچسب گذاری و ریشه یابی نمودیم. سپس باهم آیی های کلمه ها را بر پایه معیارهای تناظر به دست آوردیم و بعد مقایسه و تحلیل کردیم. همچنین در این کار اثرات کلمه های ایستواژه موجود در متن خبرها را در استخراج باهم آیی ها، مورد بررسی و تحلیل قرار دادیم. در این پژوهش از میان روشهای موجود در این زمینه، مهمترین و کمخطاترین روشها را برگزیده و ترکیب کردیم و به نتیجه های سودمندی و مفیدی برای باهم آیی های کلمه ها در متن خبرهای این وبگاه دست یافتیم.

Keywords:

Authors

احمد یوسفان

مربی، دانشگاه کاشان

دانیال ابراهیم زاده

دانش آموخته کارشناسی، دانشگاه کاشان

مسعود عباسیان

دانش آموخته کارشناسی