یک رویکرد فازی در خوشه بندی کلمات برای ساخت مدل های زبانی آماری

Publish Year: 1385
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 2,246
  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

ACCSI12_302

تاریخ نمایه سازی: 23 دی 1386

Abstract:

استفاده از مدل زبانی به صورت n-gram مبتنی بر کلمه در سیستم های بازشناسی گفتار پیوسته بسیار رایج می باشد. به منظور استفاده از این مدل زبانی نیاز به استخراج آن از دادگان متنی غنی می باشد. دادگان های متنی موجود در زبان فارسی آنقدر غنی نیستند که بتوان با کمک آن ها مدل های آماری مبتنی بر کلمات معتبری را استخراج کرد. به همین منظور سعی بر این است که به جای به دست آوردن احتمال دنبا لهم امدن کلمات، احتمال دنبال هم آمدن خوشه هایی که آن کلمات به آن ها متعلق هستند استخراج شود. دراین پژوهش یک ایده فازی برای خوشه بندی کلمات فارسی به منظور ایجاد مدل زبانی مبتنی بر خوشه بررس شده است که دران هر کلمه با درجات عضویت متفاوت به خوشه های مختلف تعلق دارد. الگوریتم خوشه بندی C-mean فازی می باشد. بر همین مبنا پارامترهای مختلفی در این الگوریتم مورد بررسی قرار گرفته و نهایتا بر روی 20000 کلمه پر کاربرد از دادگان متنی زبان فارسی اعمال شده است. مدل زبانی حاصل از آن در سیستم بازشناسی گفتار پیوسته مستقل از گوینده فارسی مورد آزمایش قرار گرفته و در نهایت باعث بهبود در دقت بازشناسی گردیده است.