CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

بهبود انسجام در خلاصه سازی استخراج ی خودکار متن با روی کردی حریصانه و بردارهای واژگانی

عنوان مقاله: بهبود انسجام در خلاصه سازی استخراج ی خودکار متن با روی کردی حریصانه و بردارهای واژگانی
شناسه ملی مقاله: JR_IOT-2-2_004
منتشر شده در دوره ۲ شماره ۲ در سال 1399
مشخصات نویسندگان مقاله:

محمد عبدالهی - استادیار، دانشگاه جامع علمی کاربردی، مرکز علمی کاربردی جهاد دانشگاهی مشهد

خلاصه مقاله:
پوشش کامل اطلاعات مهم موجود در متن اصلی، انسجام جملات تولید شده و عدم افزونگی و جملات متشابه خروجی سه هدف مهم هر سیستم خودکار خلاصه سازی است. تحقیقات انجام شده تاکنون توجه کمتری به ویژگی انسجام و وابستگی جملات موجود در خلاصه خروجی داشته اند. لذا تولید خلاصه های منسجم و ارزیابی انسجام موضوعی جملات قرار گرفته در متن خروجی نقش بسیار مهمی را در سیستم های خلاصه سازی خودکار ایفا می کند. روش پیشنهادی این تحقیق ابتدا جملات متن به ماتریس های عددی تبدیل نموده و سپس با استخراج ویژگی های آماری موجود در آنان و رویکردی حریصانه خلاصه هایی منسجم تولید کرده است. در این روش پس از پیش پردازش های اولیه متن ورودی، ابتدا جملات موجود در متن تفکیک شده و با استفاده ازالگوریتم word۲vec به ماتریس های عددی تبدیل می شوند. سپس با بکارگیری n-grams های با احتمال بالا ماتریس های تولیدی نرمال شده و در نهایت با بکارگیری رویکردی حریصانه مرتبط ترین جملات با هم و با موضوع متن انتخاب و در متن خروجی قرار می گیرند. روش حریصانه پیشنهادی این تحقیق رویکردی مبتنی بر الگوریتم کوله پشتی بود که در یک الگوریتم تکراری دو ویژگی انسجام مفهومی و تنوع در موضوع جملات موجود در متن خلاصه را بیشینه کرده است. روش پیشنهادی نتیجه خود را با مدل مشابه Q_Networks مقایسه نموده و برتری روش را در متن های بزرگ و تعداد جملات بالا نشان داده است.

کلمات کلیدی:
پردازش زبان طبیعی، خلاصه سازی استخراجی، انسجام متن، بردارهای عددی واژگان مدل های زبانی، الگوریتم های حریصانه

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1242104/