CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

بکارگیری رویکرد رتبه بندی مبتنی بر یادگیری برای محتوای فارسی وب

عنوان مقاله: بکارگیری رویکرد رتبه بندی مبتنی بر یادگیری برای محتوای فارسی وب
شناسه ملی مقاله: IRANWEB05_025
منتشر شده در پنجمین کنفرانس بین المللی وب پژوهی در سال 1398
مشخصات نویسندگان مقاله:

امیرحسین کیهانی پور - استادیار، دانشکده مهندسی، پردیس فارابی، دانشگاه تهران

خلاصه مقاله:
استفاده از اطلاعات نحوه رفتار کاربران حین جستجوی اطلاعات در وب که اصطلاحا اطلاعات کلیک از گذر داده نامیده می شود، در بهبود عملکرد این س امانه ها بسیار مفید می باشد. با این وجود، این قبیل اطلاعات، در اغلب مجموعه های داده محک موجود برای رتبه بندی مبتنی بر یادگیری و به تبع آن، در اکثر روش های مطرح ش ده در این زمینه، مغفول مانده است . همچنین، تعدد ویژگی های ارایه شده در این مجموعه های داده، ضمن تحمیل هزینه های محاسباتی به روش های رتبه بندی مطرح شده، کاربرد آنها را در شرایط واقعی، د شوار می کند. به منظور پرداختن به این چالش ها، در سال های اخیر، رویکرد نوینی برای حل مساله ایجاد رتبه بندی مبتنی بر یادگیری، بر پایه طرح مفهوم ویژگی های کلیک از گذر داده و تلفیق آن با تکنیک های یادگیری تقویتی ارائه شده است که منجر به معرفی الگوریتم QRC - Rank شده است. عملکرد موفق این الگوریتم روی مجموعه های داده محک مطرح انگلیسی نظیر LETOR و WCL2R، ایده اصلی این مقاله جهت بررسی نحوه عملکرد این الگوریتم ها در حوزه خط و زبان فارسی بوده است. ارزیابی عملکرد این الگوریتمها روی مجموعه داده محک فارسی dotIR، حاکی از عملکرد برتر این روش نسبت به الگوریتم های پایه رتبه بندی، بخصوص در نتایج نخست جستجوها است که غالبا بیشتر مورد توجه کاربران، واقع می شوند.

کلمات کلیدی:
رتبه بندی مبتنی بر یادگیری، یادگیری تقویتی، محتوای فارسی وب، داده محک dotIR

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/883995/