CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

یک روش آماری مبتنی بر پیکره برای جداسازی واژههای به هم چسبیده

عنوان مقاله: یک روش آماری مبتنی بر پیکره برای جداسازی واژههای به هم چسبیده
شناسه ملی مقاله: FJCFIS02_335
منتشر شده در دومین کنگره مشترک سیستمهای فازی و هوشمند ایران در سال 1387
مشخصات نویسندگان مقاله:

محسن مشکی - دانشکده مهندسی کامپیوتر دانشگاه علم و صنعت ایران
مرتضی آنالویی

خلاصه مقاله:
در این مقاله، یک روش آماری مبتنی بر پیکره برای شناسایی واژههای به هم چسبیده معرفی شد. این روش، با استفاده از معیاراحتمال شرطی متقارن تعیین میکند که آیا یک عنصر متنی، یک واژهی کامل است یا مجموعهای از واژههای به هم چسبیده است. روشپیشنهادی روی یک مجموعهی 18000 تایی از اخبار ورزشی مورد آزمایش قرار گرفت و نتایج قابل قبولی را نشان داد. به ازای هر دوآستانهی 0,001 و 0,0001 تعداد نمونههایی که به درستی از هم جدا شدند به کل نمونههای جداشده نسبت قابل قبولی (بیش از 80 درصد در مورد نمونههای جداشده به دو بخش) را نشان داد.

کلمات کلیدی:
پیکرهی متنی، تعیین مرز واژهها، باهمآیی، احتمال شرطی متقارن

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/204044/