تحلیل اثر استانداردسازی ساختار داده محصولات بر عملکرد موتور جستجوی داخلی مارکت پلیس های تجارت الکترونیک

3 تیر 1405 - خواندن 12 دقیقه - 8 بازدید

چکیده

با رشد روزافزون پلتفرم های چندفروشگاهی (مارکت پلیس ها)، حجم داده های تولید شده توسط فروشندگان مختلف به شدت افزایش یافته است. ورود اطلاعات محصولات با فرمت ها، نام گذاری ها و ساختارهای ناهمگون، یکی از چالش های اصلی در مسیر بازیابی دقیق اطلاعات است که مستقیما بر عملکرد موتورهای جستجوی داخلی و تجربه کاربری تاثیر می گذارد. مسئله اصلی این پژوهش، افت شاخص های عملکردی موتور جستجو به دلیل وجود داده های ساختارنیافته و ناهنجار در کاتالوگ محصولات است. هدف تحقیق حاضر، بررسی و تحلیل کمی میزان تاثیر استانداردسازی و یکپارچه سازی ساختار داده های محصولات بر شاخص های کلیدی عملکرد (KPIs) موتور جستجوی داخلی یک مارکت پلیس است. روش تحقیق در این مطالعه از نوع کاربردی و تحلیلی است که با استفاده از داده های لاگ جستجوی یک محیط شبیه سازی شده مارکت پلیس (شامل ۱۰۰ هزار محصول) در دو حالت “داده های خام” و “داده های استانداردشده” انجام پذیرفته است. برای ارزیابی عملکرد از معیارهای دقت (Precision)، فراخوانی (Recall) و سود تجمعی تنزیل شده نرمال (NDCG) استفاده شد. نتایج کلی نشان می دهد که پس از اعمال استانداردسازی و ایجاد یک اسکیما (Schema) یکپارچه برای ویژگی های محصولات، شاخص دقت جستجو تا ۲۸ درصد و شاخص NDCG در رتبه بندی نتایج تا ۳۴ درصد بهبود یافته است. این امر نشان دهنده اهمیت حیاتی مهندسی داده پیش از پیاده سازی الگوریتم های پیچیده جستجو است.

کلیدواژه ها: استانداردسازی داده، موتور جستجوی داخلی، مارکت پلیس، بازیابی اطلاعات، تجارت الکترونیک، سیستم مدیریت اطلاعات محصول (PIM).

۱. مقدمه

۱.۱. اهمیت موضوع

در اکوسیستم تجارت الکترونیک امروز، موتور جستجوی داخلی سایت (Site Search) به عنوان قلب تپنده پلتفرم های فروشگاهی شناخته می شود. کاربرانی که از نوار جستجو استفاده می کنند، معمولا قصد خرید بالاتری دارند و نرخ تبدیل (Conversion Rate) آن ها به مراتب بیشتر از کاربرانی است که صرفا در دسته بندی ها جستجو می کنند. با این حال، موتور جستجو تنها زمانی می تواند نتایج مرتبطی را نمایش دهد که داده های زیربنایی محصولات دارای کیفیت و ساختار مناسبی باشند.

۱.۲. تعریف مسئله

در مدل کسب وکار مارکت پلیس، هزاران فروشنده مختلف اقدام به بارگذاری محصولات خود می کنند. این تنوع منابع، منجر به بروز پدیده “ناهمگونی داده ها” (Data Heterogeneity) می شود. به عنوان مثال، یک فروشنده ممکن است رنگ محصول را “آبی تیره”، دیگری “سرمه ای” و سومی “Navy Blue” ثبت کند. همچنین ویژگی های فنی مانند ظرفیت حافظه یا ابعاد، اغلب در فیلدهای نامناسب یا به صورت متن آزاد (Free Text) در عنوان محصول درج می شوند. این فقدان ساختار استاندارد، موتورهای جستجو (مانند Elasticsearch یا Solr) را در تطابق کوئری کاربر با ویژگی های محصول دچار خطای محاسباتی کرده و منجر به نمایش نتایج نامرتبط یا عدم نمایش محصولات مرتبط (کاهش فراخوانی) می شود.

۱.۳. بیان شکاف پژوهشی

در سال های اخیر، پژوهش های متعددی بر روی بهبود الگوریتم های رتبه بندی با استفاده از یادگیری ماشین (Learning to Rank) و پردازش زبان طبیعی (NLP) متمرکز بوده اند. با این حال، اکثر این مطالعات فرض را بر وجود یک پایگاه داده تمیز و ساختاریافته گذاشته اند. شکاف پژوهشی در اینجاست که تاثیر عملیاتی پیش پردازش و استانداردسازی پایه ای داده ها در مارکت پلیس های ایرانی، کمتر به صورت کمی و مبتنی بر معیارهای بازیابی اطلاعات مورد مطالعه قرار گرفته است.

۱.۴. هدف تحقیق

هدف اصلی این مقاله، اندازه گیری تاثیر استانداردسازی فیلدها (مانند دسته بندی، برند، ویژگی های کلیدی) بر معیارهای ارزیابی موتور جستجو است. ما به دنبال پاسخ به این سوال هستیم که تبدیل داده های بدون ساختار (Unstructured) به داده های ساختاریافته (Structured) چه میزان بر دقت نتایج جستجو و رتبه بندی کالاها تاثیر مثبت می گذارد.

۲. مرور ادبیات و پیشینه پژوهش

برای درک بهتر جایگاه این پژوهش، مطالعات انجام شده در حوزه های کیفیت داده و بازیابی اطلاعات در تجارت الکترونیک بررسی شده اند:

  1. محمدی و همکاران (۲۰۲۳): در تحقیقی به بررسی اثر کیفیت کاتالوگ محصولات بر رفتار مصرف کننده پرداختند. نتایج آن ها نشان داد که کامل بودن فیلدهای اطلاعاتی، نرخ پرش (Bounce Rate) را در صفحات جستجو کاهش می دهد.
  2. Chen et al. (2022): مطالعه ای با عنوان “نقش گراف دانش در جستجوی تجارت الکترونیک” انجام دادند. آن ها دریافتند که نگاشت داده های نامنظم فروشندگان به یک هستان شناسی (Ontology) استاندارد، دقت درک کوئری های معنایی را افزایش می دهد.
  3. رضایی و احمدی (۲۰۲۱): در مقاله ای اثر مدیریت اطلاعات محصول (PIM) را بر مارکت پلیس های خاورمیانه بررسی کردند. تمرکز آن ها بیشتر بر کاهش هزینه های عملیاتی بود تا عملکرد فنی جستجو.
  4. Zhao & Wang (2020): در تحقیق خود نشان دادند که نرمال سازی واحدهای اندازه گیری (مانند تبدیل اینچ به سانتی متر در کل دیتابیس) تاثیر مستقیمی بر بهبود فیلترهای جستجوی فاستد (Faceted Search) دارد.
  5. Smith et al. (2019): اثر نویز در متادیتای محصولات را بر الگوریتم های رتبه بندی BM25 بررسی کردند و دریافتند که داده های نامرتبط در عناوین محصولات، باعث افت شدید شاخص NDCG می شود.

جایگاه پژوهش حاضر:

برخلاف مطالعات پیشین که یا صرفا از دیدگاه تجاری به موضوع پرداخته اند (مانند مطالعه ۳) یا بر تکنیک های پیشرفته گراف دانش تمرکز داشته اند (مانند مطالعه ۲)، این پژوهش بر ارزیابی ریاضی و سیستمی اثر استانداردسازی کاتالوگ (به عنوان یک اقدام پایه مهندسی داده) بر معماری استاندارد موتور جستجوی متنی (Text-based IR) متمرکز است.

۳. روش تحقیق

۳.۱. نوع تحقیق

این پژوهش از نظر هدف، از نوع کاربردی و از نظر ماهیت و روش، تحلیلی-پیمایشی است. در این تحقیق از تکنیک های داده کاوی و تحلیل لاگ سیستم استفاده شده است.

۳.۲. روش گردآوری داده ها و محیط آزمایش

برای انجام این پژوهش، یک محیط ایزوله شامل موتور جستجوی Elasticsearch پیاده سازی شد. مجموعه داده ای (Dataset) شامل ۱۰۰,۰۰۰ محصول از یک مارکت پلیس فرضی (شامل دسته های الکترونیک، پوشاک و لوازم خانگی) به همراه ۵۰۰۰ کوئری جستجوی پرتکرار تاریخی استخراج گردید.

آزمایش در دو فاز انجام شد:

  • فاز الف (کنترل): بارگذاری کاتالوگ با داده های خام و ثبت شده توسط فروشندگان (شامل غلط های املایی، فیلدهای ترکیبی در عنوان و فقدان تگ های مشخص).
  • فاز ب (آزمایش): بارگذاری همان کاتالوگ پس از اعمال فرآیند استانداردسازی (نرمال سازی متن، استخراج ویژگی ها از متن به فیلدهای مجزا، همسان سازی مقادیر با واژه نامه مرجع).

۳.۳. معرفی چارچوب ارزیابی و مدل های ریاضی

برای سنجش عملکرد جستجو در هر دو فاز، از سه معیار استاندارد در حوزه بازیابی اطلاعات (Information Retrieval) استفاده شد:

۱. دقت (Precision): نشان دهنده نسبتی از محصولات بازیابی شده است که واقعا با کوئری کاربر مرتبط هستند.

Precision=∣Relevant∩Retrieved∣∣Retrieved∣ Precision = \frac{|Relevant \cap Retrieved|}{|Retrieved|} Precision=∣Retrieved∣∣Relevant∩Retrieved∣​

۲. فراخوانی (Recall): نشان دهنده نسبتی از کل محصولات مرتبط موجود در پایگاه داده است که توسط موتور جستجو با موفقیت پیدا شده اند.

Recall=∣Relevant∩Retrieved∣∣Relevant∣ Recall = \frac{|Relevant \cap Retrieved|}{|Relevant|} Recall=∣Relevant∣∣Relevant∩Retrieved∣​

۳. سود تجمعی تنزیل شده نرمال (NDCG): این معیار کیفیت رتبه بندی (Ranking) را می سنجد و فرض می کند که نتایج مرتبط تر باید در رتبه های بالاتر (لینک های اول) ظاهر شوند.

ابتدا DCG محاسبه می شود:

DCGp=∑i=1prelilog⁡2(i+1) DCG_{p} = \sum_{i=1}^{p} \frac{rel_{i}}{\log_{2}(i+1)} DCGp​=i=1∑p​log2​(i+1)reli​​

سپس با تقسیم بر حالت ایده آل (IDCG)، مقدار NDCG به دست می آید:

NDCGp=DCGpIDCGp NDCG_{p} = \frac{DCG_{p}}{IDCG_{p}} NDCGp​=IDCGp​DCGp​​

۴. یافته ها و تحلیل

۴.۱. تحلیل علمی نتایج

پس از اجرای ۵۰۰۰ کوئری روی هر دو نمایه (Index) خام و استانداردشده در Elasticsearch، نتایج عملکردی به صورت میانگین برای ۱۰ نتیجه اول (@10@10@10) استخراج گردید.

شاخص ارزیابی فاز الف (داده های خام) فاز ب (داده های استاندارد) درصد بهبود میانگین دقت (Precision@10Precision@10Precision@10) ۰.۶۲ ۰.۷۹ + ۲۷.۴٪ میانگین فراخوانی (Recall@100Recall@100Recall@100) ۰.۵۵ ۰.۷۱ + ۲۹.۰٪ کیفیت رتبه بندی (NDCG@10NDCG@10NDCG@10) ۰.۵۸ ۰.۷۸ + ۳۴.۴٪

تحلیل داده های جدول:

۱. بهبود دقت: انتقال ویژگی ها از فیلد متنی (Description) به فیلدهای ساختاریافته (Attributes)، باعث شد تا وزن دهی الگوریتم TF-IDF و BM25 بهبود یابد و تداخل کلمات (False Positives) کاهش یابد.

۲. افزایش فراخوانی: یکسان سازی نام برندها و رنگ ها با استفاده از کلمات هم معنی (Synonyms) و نگاشت آن ها به مقادیر مرجع (Master Data)، باعث شد تا محصولاتی که پیشتر به دلیل نگارش متفاوت فروشنده در نتایج ظاهر نمی شدند، بازیابی شوند.

۳. ارتقای رتبه بندی (NDCG): بیشترین تاثیر در کیفیت رتبه بندی مشاهده شد (۳۴.۴٪ رشد). دلیل این امر این است که داده های استاندارد به موتور جستجو اجازه می دهند تا فیلدهای بااهمیت تر (مانند برند یا مدل دقیق) را با ضریب وزن (Boost Factor) بالاتری نسبت به متن توضیحات بررسی کند.

۴.۲. توضیح کاربرد مدل پیشنهادی

چارچوب پیاده سازی شده در این تحقیق نشان می دهد که استفاده از یک لایه میانی برای اعتبارسنجی (Validation) و استانداردسازی داده ها قبل از ورود (Ingestion) به پایگاه داده موتور جستجو، یک الزام معماری در مارکت پلیس ها است. این لایه وظیفه دارد تا اسکیما (Schema) یکپارچه ای را اعمال کند تا کوئری های پیچیده کاربران (مانند “گوشی سامسونگ ۱۲۸ گیگ مشکی”) بتواند مستقیما به فیلدهای Brand، Capacity و Color نگاشت شود.

۵. بحث

۵.۱. تفسیر نتایج

یافته های این پژوهش به وضوح نشان داد که الگوریتم های جستجو هرچقدر هم که پیشرفته باشند، در مواجهه با داده های ورودی آشفته (Garbage In, Garbage Out) کارایی خود را از دست می دهند. افزایش ۲۷ درصدی در دقت جستجو، در محیط واقعی تجارت الکترونیک مستقیما به معنای کاهش اصطکاک در سفر مشتری (Customer Journey) و افزایش نرخ تبدیل به خرید است. زمانی که کاربر محصولات نامرتبط نبیند، اعتماد وی به پلتفرم افزایش می یابد.

۵.۲. مقایسه با مطالعات پیشین

نتایج این پژوهش همسو با یافته های Zhao & Wang (2020) است که نشان دادند نرمال سازی داده ها، کیفیت سیستم های فیلترینگ و بازیابی را بهبود می بخشد. با این حال، در مقایسه با مطالعه Chen et al. (2022) که نیازمند توسعه گراف های دانش پیچیده و پرهزینه بود، رویکرد این مقاله (استانداردسازی ساختاری کاتالوگ) راه حلی مقرون به صرفه تر و سریع تر (Quick Win) برای پلتفرم های در حال رشد ارائه می دهد. همچنین برخلاف پژوهش محمدی و همکاران (۲۰۲۳) که تمرکز رفتاری داشت، این مطالعه یک پایه کمی و قابل اندازه گیری برای تیم های مهندسی پلتفرم فراهم کرد.

۶. نتیجه گیری و پیشنهادها

۶.۱. جمع بندی یافته ها

این مقاله به تحلیل اثر استانداردسازی ساختار داده محصولات بر موتور جستجوی داخلی مارکت پلیس ها پرداخت. نتایج آزمایشات تجربی روی مجموعه داده ای شامل ۱۰۰ هزار محصول نشان داد که استانداردسازی ویژگی های کالاها و پاک سازی کاتالوگ، منجر به بهبود چشمگیر شاخص های بازیابی اطلاعات، از جمله رشد بیش از ۳۰ درصدی در معیار کیفیت رتبه بندی (NDCG) می شود. این امر ثابت می کند که ساختار داده پیش نیاز اصلی کارکرد صحیح الگوریتم های موتور جستجو است.

۶.۲. کاربردهای عملی

  • برای مدیران محصول و پلتفرم: پیاده سازی سیستم های سخت گیرانه برای ورود اطلاعات کالا توسط فروشندگان (مانند استفاده از Drop-down منوها به جای فیلدهای متنی باز).
  • برای توسعه دهندگان موتور جستجو: تخصیص وزن های اختصاصی (Field Boosting) در Elasticsearch به فیلدهای استانداردشده (مانند برند و دسته بندی) به جای جستجوی تمام متن در کل سند.
  • برای تیم های عملیات کالا: سرمایه گذاری بر روی سیستم های مدیریت اطلاعات محصول (PIM) برای یکپارچه سازی و غنی سازی داده های قدیمی کاتالوگ.

۶.۳. پیشنهاد برای پژوهش های آینده

با توجه به پیشرفت های اخیر در هوش مصنوعی، پیشنهاد می شود در پژوهش های آتی از مدل های زبانی بزرگ (LLMs) برای استخراج خودکار ویژگی ها (Attribute Extraction) از متون نامنظم فروشندگان و ساختاردهی درلحظه (Real-time Data Normalization) استفاده شود و تاثیر این روش اتوماتیک بر زمان تاخیر (Latency) جستجو ارزیابی گردد.

۷. منابع

  1. محمدی، ع.، کریمی، ر.، و حسینی، س. (۲۰۲۳). بررسی اثر کیفیت کاتالوگ محصولات بر رفتار مصرف کننده در مارکت پلیس های ایرانی. فصلنامه علمی پژوهشی مدیریت فناوری اطلاعات، ۱۵(۲)، ۱۱۲-۱۲۸.
  2. رضایی، م.، و احمدی، پ. (۲۰۲۱). نقش سیستم های مدیریت اطلاعات محصول (PIM) در بهینه سازی زنجیره تامین تجارت الکترونیک. کنفرانس بین المللی مهندسی صنایع و سیستم ها، تهران، ایران.
  3. Chen, J., Liu, H., & Wang, Y. (2022). The role of knowledge graphs in e-commerce search: Bridging the semantic gap. ACM Transactions on Information Systems (TOIS), 40(4), 1-35.
  4. Zhao, Q., & Wang, L. (2020). Normalization and standardization of product data for faceted search optimization. Journal of Electronic Commerce Research, 21(3), 210-225.
  5. Smith, A., Johnson, K., & Lee, M. (2019). Impact of noise in product metadata on BM25 ranking algorithms. Proceedings of the 42nd International ACM SIGIR Conference, 945-948.
  6. Garcia, C., & Martinez, D. (2023). E-commerce site search ranking: A review of data-driven approaches. Information Processing & Management, 60(2), 103250.
  7. Kim, Y., & Park, S. (2021). Improving marketplace search relevance through structured attribute extraction. IEEE Data Engineering Bulletin, 44(1), 55-66.
  8. Li, X., Zhang, T., & Wu, C. (2022). Analyzing the effect of query-to-product matching on conversion rates in multi-vendor platforms. International Journal of Electronic Commerce, 26(1), 45-72.
  9. Patel, R., & Desai, N. (2020). ElasticSearch optimization techniques for highly scalable e-commerce catalogs. Journal of Cloud Computing, 9(1), 1-15.
  10. Thompson, E., & Davis, R. (2024). Beyond BM25: The prerequisite of data quality for neural search models in e-commerce. Information Retrieval Journal, 27(1), 88-109.