سیویلیکا را در شبکه های اجتماعی دنبال نمایید.

ارایه یک مدل دسته بندی اسناد متنی فارسی بر مبنای ترکیب مدل های موضوعی ومدل N-Gram

Publish Year: 1395
Type: Conference paper
Language: Persian
View: 654

This Paper With 15 Page And PDF Format Ready To Download

Export:

Link to this Paper:

Document National Code:

ECICONF01_007

Index date: 26 April 2017

ارایه یک مدل دسته بندی اسناد متنی فارسی بر مبنای ترکیب مدل های موضوعی ومدل N-Gram abstract

با توجه به افزایش روز افزون دادههای موجود در فضای اینترنت، که درصد بسیار بالایی از این دادهها به صورت متنی هستند،طراحی و پیاده سازی سیستمهایی که بتوانند انواع عملیات پردازشی را روی این دادهها با کارایی مناسب ارایه دهند از اهمیتخاصی برخوردار است. یکی از روشهای ساماندهی این حجم عظیم اسناد متنی، کلاسبندی یا دسته بندی است. کلاسبندی جزو مهمترین روشها در حوزه یادگیری ماشین و دادهکاوی است در آن با استفاده از اسناد برچسبدار مدلی بر اساسمحتوای اسناد آموزش داده میشود و متون جدید با استفاده از مدل آموزش داده شده به کلاسهای از پیشتعریف شدهانتساب داده میشود. تاکنون روشهای متعددی برای دستهبندی اسناد متنی ارایه شده که بیشتر این روشها مبتنی بر روش کولهپشتی کلمات هستند که در آن هر سند به صورت کیسهای از کلمات بیربط نشان داده می شود. نمایش فضای برداری بهکمک کوله پشتی کلمات دارای مشکلاتی است که از آن جمله میتوان به عدم لحاظ کردن ارتباط معنایی کلمات و حجم بسیار بالای فضای برداری اشاره کرد. در این پایان نامه با استفاده از مدلهای موضوعی ابعاد فضای ویژگیها به مقدار قابلتوجهی کاهش پیدا کرده است. LDA یکی از موفقترین مدلهای موضوعی است که با خوشهبندی کلمات مرتبط در یکموضوع، اسناد را به صورت توزیعی بر روی موضوعات ساخته شده نمایش میدهد. همچنین یکی دیگر از مشکلات نمایشفضای برداری که عدم در نظر گرفتن ارتباط بین کلمات متوالی است، در این پایان نامه به کمک مدل N-Gram حل شده است. در نهایت روش ترکیبی LDA و N-Gram برای نمایش اسناد و استخراج ویژگی استفاده شده است و همچنین کلاس بند SVM بر روی مجموعه ای از اسناد خبری عصر ایران اعمال شده است.

ارایه یک مدل دسته بندی اسناد متنی فارسی بر مبنای ترکیب مدل های موضوعی ومدل N-Gram Keywords:

کلاسبندی , LDA , N-Gram , ماشین بردار پشتیبان , پیکره خبری عصر ایران

ارایه یک مدل دسته بندی اسناد متنی فارسی بر مبنای ترکیب مدل های موضوعی ومدل N-Gram authors

رضا مبصری مقدم

دانشگاه آزاد اسلامی واحدزاهدان

محمدرضا وظیفه

دانشگاه آزاد اسلامی واحدزاهدان

امین شهرکی مقدم

دانشگاه آزاد اسلامی واحدزاهدان

مراجع و منابع این Paper:

لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :
م. ع. س. ه. فیلی, "ارائه یک سیستم دسته بندی ...
Irnternational Congress 2016 36و37 17-18 _ _ _ ...
Biro, Istvan. "Document Classification with Latent Dirichlet Allocation. "Unpublished Doctoral ...
Blei, David M., Andrew Y. Ng, and Michael I Jordan. ...
Y. Yang and X. Liu, "A re-examination of text categorization ...
S. A. Wood and T. D. Gedeon, "A Hybrid Neural ...
Biro, Istvan, and Jacint Szab6. "Latent Dirichlet allocation for automatic ...
Lebret, Remi, and Ronan Collobert. "N-gram-B ased Low-D imensional Representation ...
Blei, David M. "Probabilistic topic models." C ommunications of the ...
نمایش کامل مراجع

مقاله فارسی "ارایه یک مدل دسته بندی اسناد متنی فارسی بر مبنای ترکیب مدل های موضوعی ومدل N-Gram" توسط رضا مبصری مقدم، دانشگاه آزاد اسلامی واحدزاهدان؛ محمدرضا وظیفه، دانشگاه آزاد اسلامی واحدزاهدان؛ امین شهرکی مقدم، دانشگاه آزاد اسلامی واحدزاهدان نوشته شده و در سال 1395 پس از تایید کمیته علمی نخستین کنفرانس بین المللی چالش های الکترونیکی 2016 پذیرفته شده است. کلمات کلیدی استفاده شده در این مقاله کلاسبندی، LDA ، N-Gram ، ماشین بردار پشتیبان، پیکره خبری عصر ایران هستند. این مقاله در تاریخ 6 اردیبهشت 1396 توسط سیویلیکا نمایه سازی و منتشر شده است و تاکنون 654 بار صفحه این مقاله مشاهده شده است. در چکیده این مقاله اشاره شده است که با توجه به افزایش روز افزون دادههای موجود در فضای اینترنت، که درصد بسیار بالایی از این دادهها به صورت متنی هستند،طراحی و پیاده سازی سیستمهایی که بتوانند انواع عملیات پردازشی را روی این دادهها با کارایی مناسب ارایه دهند از اهمیتخاصی برخوردار است. یکی از روشهای ساماندهی این حجم عظیم اسناد متنی، کلاسبندی یا دسته بندی است. کلاسبندی جزو ... . برای دانلود فایل کامل مقاله ارایه یک مدل دسته بندی اسناد متنی فارسی بر مبنای ترکیب مدل های موضوعی ومدل N-Gram با 15 صفحه به فرمت PDF، میتوانید از طریق بخش "دانلود فایل کامل" اقدام نمایید.