ریشه یابی کلمات با استفاده از شبکه ی بیزین ساده و کاربرد آن به همراه استفاده از یک الگوریتم جدید درتعیین میزان مشابهت متون

فاطمه کاظمی ونهری; علی احمدی; مهران محسن زاده

ریشه یابی کلمات با استفاده از شبکه ی بیزین ساده و کاربرد آن به همراه استفاده از یک الگوریتم جدید درتعیین میزان مشابهت متون

Publish place: 11th Intelligent Systems Conference

Publish Year: 1391

نوع سند: مقاله کنفرانسی

زبان: Persian

This Paper With 8 Page And PDF Format Ready To Download

دریافت فایل کامل Paper

Certificate
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

https://civilica.com/doc/214689

شناسه ملی سند علمی:

ICS11_107

تاریخ نمایه سازی: 14 مهر 1392

Abstract:

امروزه از ریشه یاب ها استفاده های بسیاری در مسائل مربوط به حوزه زبان طبیعی، داده کاوی و بازیابی اطلاعات میشود. از جمله مسائل مورد بحث در حوزه ی زبان طبیعی، مسئلهی تشخیص میزان مشابهت متون است. قبل از تشخیص میزان مشابهت متون، عملیاتی تحت عنوان پیش پردازش بر روی متون انجام می گیرد. پیش پردازش ها شامل انجام فعالیت هایی بر روی متن است که باعث می شوند نتایج الگوریتم پیدا کردن تشابه، بهتر گردد. پیش پردازشها به طور کلی شامل مراحل حذف علائم نقطه گذاری، جداسازی کلمات، حذف اعداد، حذف کلمات پرتکرار و ریشه یابی است. در این مقاله پس از انجام چهار مرحله ی ابتدایی پیش پردازش، با ارائه ی یک الگوریتم جدید مبتنی بر شبکه ی بیزین ساده، به انجام یک مرحله ی اضافی دیگر تحت عنوان دسته بندی کلمات می پردازیم و از نتایج دسته بندی در مرحله ی ریشه یابی استفاده می کنیم. سپس به بررسی کاربرد آن الگوریتم به همراه استفاده از یک الگوریتم جدید بر مبنای تئوری احتمال کل، و فاصله یابی در فضای برداری، به تشخیص میزان مشابهت متون می پردازیم. بررسی های ما نشان می دهد که الگوریتم های ارائه شده توانسته اند نتایج بسیار خوبی را در زمینهی ریشه یابی و تعیین میزان مشابهت متون بدست آورند

Keywords:

دسته بندی کلمات , ریشه یابی , شینگل , فضای برداری , میزان مشابهت

Authors

فاطمه کاظمی ونهری

دانشگاه آزاد اسلامی واحد علوم و تحقیقات تهران

علی احمدی

دانشگاه صنعتی خواجه نصیرالدین طوسی

مهران محسن زاده

دانشگاه آزاد اسلامی واحد علوم و تحقیقات تهران

مراجع و منابع این Paper:

لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :

A. G. Jivani et al, _ Comparative Study of Stemming ...
Taghva, Beckley and Sadeh. 2005. A stemming algorithm for the ...
Z. Ceska , C. Fox, The Influence of Text Pre-processing ...
M. R. D a varpanah, Farsi Lexical analysis and stopword ...
http://www. emeraldin sight.com/i ournal s.htm?i ssn=0737-883 1 ...
T. M. Mitchell, "Machin Learning", McG raw-Hill S c ience/Engineeri ...
M. Potthast and B. Stein, " New Issues in Near-duplicate ...
D. Anzelemi, D. Carlone, F. Ri zello, ;Plagiari STm detection ...
Dougla s, Wendy, Randy, "Copy detection system for digital ...

نمایش کامل مراجع