فشرده سازی متون فارسی بدون استفاده از Metadata به شیوه ای سازگار با ساختارهای Unicode
Publish Year: 1394
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 806
This Paper With 8 Page And PDF Format Ready To Download
- Certificate
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ICEECS01_042
تاریخ نمایه سازی: 8 آذر 1394
Abstract:
دراغلب شیوه های فشرده سازی خروجی الگوریتم فشرده سازی حاوی یک جدول یا دیکشنری بوده که به عنوان یک راهنما برای بازگشت به حالت غیرفشرده ازآن استفاده میگردد این جدول با دیکشنری که Metadata نامیده میشود برای بازگرداندن متن یاداده به حالت غیرفشرده الزامی است این گونه فشرده سازی ها برای متون کوتاه مناسب نیستند چرا که درفشرده سازی متون کوتاه تنها چندبایت درحجم متن صرفه جویی میگردد بنابراین باافزوده شدن Metadata ممکن است حتی حجم متن فشرده شده بیشتر شود همچنین درذخیره سازی متن فشرده شده ممکن است بدلیل درهم ریختن ساختار Unicode قوانین استاندارد Unicode نقض شود ازمهمترین این قوانین Surrogate Pair است دراین مقاله شیوه ای برای فشرده سازی متون فارسی ارایه خواهد شد که فاقد Metadata بوده و لذا برای متون کوتاهی چون پیامک مناسب می باشد همچنین ساختاراستاندارد Unicode وقانون Surrogate Pair درآن نقض نمی گردد
Keywords:
Authors
مرتضی کریمیان
دانشجوی کارشناسی ارشد رشته مهندسی تکنولوژی نرم افزار دانشکده علوم کامپیوتر
قدرت سپیدنام
عضو هیات علمی موسسه آموزش عالی اشراق بجنورد
شادی لنگری
عضو هیات علمی موسسه آموزش عالی اشراق بجنورد
مراجع و منابع این Paper:
لیست زیر مراجع و منابع استفاده شده در این Paper را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود Paper لینک شده اند :