CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

تشخیص عنوان پاراگراف در متون فارسی

عنوان مقاله: تشخیص عنوان پاراگراف در متون فارسی
شناسه ملی مقاله: ITCC01_520
منتشر شده در کنفرانس بین المللی پژوهش های کاربردی در فناوری اطلاعات، کامپیوتر ومخابرات در سال 1394
مشخصات نویسندگان مقاله:

مریم رفیعی پور - گروه کامپیوتر، واحد اهواز، دانشگاه آزاد اسلامی اهواز، ایران
محمدحسین یکتایی - گروه کامپیوتر، واحد آبادان، دانشگاه آزاد اسلامی آبادان، ایران

خلاصه مقاله:
امروزه منابع خبری مختلف و شبکه های اجتماعی متنوع حاوی اطلاعات مفید زیادی هستند.تشخیص عنوان یکی از شاخه های متن کاوی است که به تکنیک های خودکار جهت پیداکردنمفاهیم به هم وابسته و یافتن ارتباط موضوعی در جریانی از داده ها اشاره دارد. به بیان دیگر،تشخیص عنوان یکی از موارد کاربرد سیستم طبقه بندی خودکار متون می باشد که به تکنیک هایخودکار جهت پیدا کردن مفاهیم به هم وابسته و یافتن ارتباط موضوعی در جریانی از داده ها اشارهدارد. در این پژوهش هدف تشخیص عنوان در یک پاراگراف در متون فارسی است. جهت انجام اینکار در مرحله نخست پیش پردازش بر روی مجموعه داده ها صورت می پذیرد. پاراگراف ها مشخص،اسناد یکسان سازی، کلمات از هم جدا می شوند. سپس با استفاده از یک دیکشنری، کلمات عمومیاز اسناد حذف می شوند. با استفاده از وزن دهی کلمات کلیدی مشخص می شوند. در این مرحله، متنبه صورت برداری از ویژگی های مهم درآمده است که به عنوان ورودی به دسته بندها داده می شود.هر کدام از دسته ها معرف عناوین سندها می باشند. روش پیشنهادی با استفاده از دسته بندی با ناظراست و بر روی داده های حقیقی آزمایش شده است. نتایج حاکی از کارایی مناسب الگوریتمپیشنهادی می باشد.

کلمات کلیدی:
متن کاوی، تشخیص عنوان، دسته بندی، پاراگراف

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/451307/