CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

پیشنهاد یک روش جدید فشرده سازی رشته های یونیکد چند زبانه

عنوان مقاله: پیشنهاد یک روش جدید فشرده سازی رشته های یونیکد چند زبانه
شناسه ملی مقاله: ICTI06_033
منتشر شده در ششمین کنفرانس ملی فناوری های نوین در مهندسی برق و کامپیوتر در سال 1402
مشخصات نویسندگان مقاله:

وحید میگلی - دکتری مهندسی برق کنترل دانشکده سیستمهای هوشمند و علوم داده دانشگاه خلیج فارس بوشهر
محسن میگلی - کارشناس ارشد مهندسی پدافند غیر عامل دانشگاه صنعتی مالک اشتر تهران
فاطمه نعمتی - دکتری زبان شناسی دانشکده ادبیات و علوم انسانی دانشگاه خلیج فارس بوشهر
حسین مهتدی - دکتری زبان و ادبیات عربی دانشکده ادبیات و علوم انسانی دانشگاه خلیج فارس بوشهر

خلاصه مقاله:
استاندارد یونیکد یا Unicode ابتدا برای زبان انگلیسی و کشورهای انگلیسی زبان ایجاد شد و در ادامه برای سایر زبانها در کشورهای مختلف دستورالعملی را تدوین نمود با دستور العمل یونیکد برای ذخیره سازی داده های چند زبانه مانند کدگذاری نویسه ها با کاراکترهای عربی و فارسی روی رایانه ها نیاز به توسعه فضایی حداقل دو بایت است. لذا ارائه روشهای موثر فشرده سازی برای متنهای چند زبانه بدلیل اهمیت فضای ارسال اطلاعات ضرورت پیدا میکند روشهای متداول فشرده سازی نظیر لغتنامه و تصادفی و هافمن میتوانند برای فشرده سازی رشته های چند زبانه به کار روند ولی متاسفانه رشته های فشرده شده با این روشها غیر قابل پردازش میشوند زیرا این روشهای فشرده سازی کلا ساختار رشته را به هم میریزند. بنابراین جستجوی یک رشته ساده در میان رشته فشرده شده با مشکل مواجه می شود. این مقاله روشی برای فشرده سازی رشته های چند زبانه یونیکد ارائه میکند که رشته های فشرده شده همچنان قابل پردازش هستند و یک رشته را می توان میان رشته فشرده شده جستجو کرد و با این شیوه برای فرستادن پیامک یا SMS که فقط ۱۴۰ بایت فضا موجود است تعداد کاراکترهای فارسی قابل انتقال از روی سامانه ها نسبت به انگلیسی به دو برابر افزایش می یابد.

کلمات کلیدی:
یونیکد چند زبانه پردازش متن فشرده سازی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1876627/