CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

بررسی راهکارهای جستجو و بازیابی معنایی متون فارسی و عربی

عنوان مقاله: بررسی راهکارهای جستجو و بازیابی معنایی متون فارسی و عربی
شناسه ملی مقاله: JR_STIM-9-4_007
منتشر شده در در سال 1402
مشخصات نویسندگان مقاله:

علی میرعرب - استادیار، گروه اشاعه اطلاعات و تبادل دانش، پژوهشگاه علوم و فرهنگ اسلامی، قم، ایران.

خلاصه مقاله:
هدف: در دهه های اخیر، موتورهای جستجوی وب به یکی از ابزارهای برجسته و ضروری برای به دست آوردن اطلاعات در جهان متصل شده امروزی تبدیل شده اند. با افزایش حجم اطلاعات موجود در وب، نیاز به یافتن و دسترسی به اطلاعات مرتبط و معنادارتر افزایش یافته است. اما موتورهای جستجوی سنتی، معمولا براساس تطابق کلمات کلیدی و تعداد ورودی های مشابه در متن ها، نتایج را بازیابی می کنند. این روش، در بسیاری از موارد به نتایج ناخوشایند و غیرمرتبط منجر می شود. در زبان فارسی و عربی نیز این مشکلات به دلیل وجود دستور زبان پیچیده آن که در بین کلمات وجود دارد و برای ماشین قابل درک نیست، بیشتر وجود دارد. در این راستا، هدف پژوهش حاضر بررسی و ارائه راهکارهای جستجو و بازیابی معنایی متون فارسی و عربی است. روش: تحقیق حاضر از نوع تحلیل محتوا بوده و برای گردآوری داده ها از روش کتابخانه ای استفاده شده است. به منظور جمع آوری اطلاعات و دستیابی به منابع مورد نیاز، از منابع مختلفی ازجمله مقالات علمی، کتب، پایان نامه ها و گزارش ها استفاده گردید. برای جمع آوری مقالات فارسی، منابعی با تاریخ انتشار از سال ۱۳۹۸، و برای جمع آوری مقالات انگلیسی، منابعی با تاریخ انتشار از سال ۲۰۲۰ به بعد مورد استفاده قرار گرفتند. برای تحلیل داده های جمع آوری شده، از روش تحلیل محتوا استفاده شد. با استفاده از روش های تحلیل و تفسیر داده ها، نتایج حاصل از مطالعات پیشین و یافته های جدید تحقیق مورد بررسی و ارزیابی قرار گرفت. این ارزیابی شامل شناسایی مشکلات و محدودیت های موجود در موتورهای جستجوی معنایی و ارائه پیشنهادها برای بهبود عملکرد آن ها است. یافته ها: در پژوهش های جستجوی معنایی و بازیابی اطلاعات در متون فارسی و عربی، روش های مبتنی بر تحلیل و پردازش معنایی متون با استفاده از مدل های زبانی پیش آموزش دیده، الگوریتم های خوشه بندی مانند K-Means و منابع دانش مانند گراف های دانش به کار گرفته می شوند. همچنین تفاوت ها در مجموعه داده، نحوه استفاده از این مدل ها و الگوریتم ها و روش جستجو و بازیابی معنایی بین کلمات، عملکرد و دقت سیستم را تحت تاثیر قرار می دهد. نتایج حاصل از پژوهش های متعدد، حاکی از آن است که برای جستجو و بازیابی معنای متون، گستره ای از روش ها و الگوریتم ها وجود دارد که می توانند نتایج متفاوتی را ارائه دهند. این نتایج نشان می دهند که هر یک از روش های مورد استفاده، قابلیت بازیابی معنایی متون را دارا هستند و قابلیت های مختلفی در ارائه دقت جستجو دارند. همچنین برخی از روش ها عملکرد بهتری نسبت به سایر روش ها از خود نشان می دهند. این روش ها با استفاده از تکنیک ها و الگوریتم های متفاوتی مانند تحلیل موضوع، شبکه های عصبی، بازنمایی های برداری و غیره، قدرت خوبی در جستجوی معنایی دارند. از طرفی، انتخاب روش مناسب باید با توجه به ماهیت مسئله و ویژگی های داده ها انجام شود. هر مسئله و داده ممکن است نیازهای خاص خود را داشته باشد و برای بهترین عملکرد، انتخاب روش مناسب و تنظیم پارامترهای آن ضروری است. نتیجه گیری: هر کدام از روش های ارائه شده برای مشکلات و ویژگی های زبانی دو زبان فارسی و عربی، راهکارهای منحصربه فردی ارائه می دهند. همچنین روش های مختلف از مدل های زبانی پیش آموزش دیده مانند BERT، الگوریتم های خوشه بندی مانند K-Means و سیستم های بازیابی مبتنی بر منابع دانش مانند گراف های دانش استفاده می کنند. همچنین راهکارهای ارائه شده، مجموعه داده ها و منابع خاصی را برای آموزش و ارزیابی مورد استفاده قرار می دهند. تفاوت ها در مجموعه داده و نحوه استفاده و تنظیم این مدل ها و الگوریتم ها بسیار حائز اهمیت است. برخی از روش ها نیز براساس معنا و روابط معنایی بین کلمات، جستجوی اطلاعات را انجام می دهند، در حالی که برخی دیگر، از روش های مبتنی بر کلمات کلیدی و ریشه ها استفاده می کنند. این تفاوت در روش جستجو و بازیابی می تواند بر عملکرد و دقت سیستم تاثیر داشته باشد. هر روش، عملکرد و دقت متفاوتی در بازیابی اطلاعات دارد که این تفاوت ها به دلیل نحوه استفاده از مدل ها، الگوریتم ها و منابع داده مختلف است.

کلمات کلیدی:
موتور جستجوی معنایی, بازیابی اطلاعات, زبان فارسی, زبان عربی, مدل های زبانی پیش آموزش دیده, منابع دانش

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1965739/