فشرده سازی متون فارسی بدون استفاده از Metadata به شیوه ای سازگار با ساختارهای Unicode

مرتضی کریمیان; قدرت سپیدنام; شادی لنگری

فشرده سازی متون فارسی بدون استفاده از Metadata به شیوه ای سازگار با ساختارهای Unicode

Publish place: International Conference on Electrical Engineering and Computer Science

Publish Year: 1394

نوع سند: مقاله کنفرانسی

زبان: Persian

This Paper With 8 Page And PDF Format Ready To Download

دریافت فایل کامل Paper

Certificate
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

https://civilica.com/doc/403166

شناسه ملی سند علمی:

ICEECS01_042

تاریخ نمایه سازی: 8 آذر 1394

Abstract:

دراغلب شیوه های فشرده سازی خروجی الگوریتم فشرده سازی حاوی یک جدول یا دیکشنری بوده که به عنوان یک راهنما برای بازگشت به حالت غیرفشرده ازآن استفاده میگردد این جدول با دیکشنری که Metadata نامیده میشود برای بازگرداندن متن یاداده به حالت غیرفشرده الزامی است این گونه فشرده سازی ها برای متون کوتاه مناسب نیستند چرا که درفشرده سازی متون کوتاه تنها چندبایت درحجم متن صرفه جویی میگردد بنابراین باافزوده شدن Metadata ممکن است حتی حجم متن فشرده شده بیشتر شود همچنین درذخیره سازی متن فشرده شده ممکن است بدلیل درهم ریختن ساختار Unicode قوانین استاندارد Unicode نقض شود ازمهمترین این قوانین Surrogate Pair است دراین مقاله شیوه ای برای فشرده سازی متون فارسی ارایه خواهد شد که فاقد Metadata بوده و لذا برای متون کوتاهی چون پیامک مناسب می باشد همچنین ساختاراستاندارد Unicode وقانون Surrogate Pair درآن نقض نمی گردد

Keywords:

فشرده سازی متن فارسی , فشرده سازی بدون متادیتا , فشرده سازی پیامک , فشرده سازی متون کوتاه

Authors

مرتضی کریمیان

دانشجوی کارشناسی ارشد رشته مهندسی تکنولوژی نرم افزار دانشکده علوم کامپیوتر

قدرت سپیدنام

عضو هیات علمی موسسه آموزش عالی اشراق بجنورد

شادی لنگری

عضو هیات علمی موسسه آموزش عالی اشراق بجنورد

مراجع و منابع این Paper:

لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :

Hamshahri Corpus , the University of Tehran Information Retrieval Evaluation ...
Kalajdzic, K. Hussein Ali, S and Petel, A. (2014), ;: ...
Unicode Inc. UTF-8 _ UTF-16 _ UTF-32 BOM Unicode. [Online] ...

نمایش کامل مراجع