استخراج خودکار کلمات کلیدی متون کوتاه فارسی با استفاده از word۲vec
Publish place: Electronic and cyber defense، Vol: 8، Issue: 2
Publish Year: 1399
Type: Journal paper
Language: Persian
View: 839
This Paper With 10 Page And PDF Format Ready To Download
- Certificate
- I'm the author of the paper
Export:
Document National Code:
JR_PADSA-8-2_010
Index date: 26 April 2021
استخراج خودکار کلمات کلیدی متون کوتاه فارسی با استفاده از word۲vec abstract
با رشد روز افزون اسناد و متون الکترونیکی به زبان فارسی، به کارگیری روشهایی سریع و ارزان برای دسترسی بـه متـون مورد نظر از میان مجموعه وسیع این مستندات، اهمیت بیشتری مییابد. برای رسیدن به این هدف، استخراج کلمات کلیدی که بیانگر مضمون اصلی متن باشند، روشی بسیار موثر است. تعداد تکرار یک کلمه در متن نمیتواند نشاندهنده اهمیت یک کلمه و کلیدی بودن آن باشد. همچنین در اکثر روشهای استخراج کلمات کلیدی مفهوم و معنای متن نادیده گرفته میشوند. از طرفی دیگر بدون ساختار بودن متون جدید در اخبار و اسناد الکترونیکی، استخراج این کلمات را مشکل میسازد. در این مقاله روشی بدون نظارت و خودکار برای استخراج این کلمات در زبان فارسی که دارای ساختار مناسبی نمیباشد، پیشنهاد شده است که نه تنها احتمال رخ دادن کلمه در متن و تعداد تکرار آن را در نظر میگیرد، بلکه با آموزش مدل word۲vec روی متن، مفهوم و معنای متن را نیز درک میکند. در روش پیشنهادی که روشی ترکیبی از دو مدل آماری و یادگیری ماشین میباشد، پس از آموزش word۲vec روی متن، کلماتی که با سایر کلمات دارای فاصله کمی بوده استخراج شده و سپس با استفاده از همرخدادی و فرکانس رابطهای آماری برای محاسبه امتیاز پیشنهاد شده است. درنهایت با استفاده از حدآستانه کلمات با امتیاز بالاتر بهعنوان کلمه کلیدی در نظر گرفته میشوند. ارزیابیها بیانگر کارایی روش با معیار F برابر ۵۳.۹۲% و با ۱۱% افزایش نسبت به دیگر روشهای استخراج کلمات کلیدی میباشد.
استخراج خودکار کلمات کلیدی متون کوتاه فارسی با استفاده از word۲vec Keywords:
استخراج خودکار کلمات کلیدی متون کوتاه فارسی با استفاده از word۲vec authors
امید حاجی پور
دانشجوی دکتری هوشمصنوعی، دانشگاه صنعتی امیرکبیر
سعیده سادات سدیدپور
استادیار دانشگاه صنعتی امیرکبیر
مراجع و منابع این Paper:
لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :