Raha Hasanabadi
35 یادداشت منتشر شدهطراحی چارچوب هوشمند برای کنترل کیفیت داده های فروشندگان مارکت پلیس
چکیده
با گسترش روزافزون مدل های کسب وکار مبتنی بر پلتفرم و بازارگاه های الکترونیکی (مارکت پلیس)، حجم داده های تولید شده توسط فروشندگان شخص ثالث به شدت افزایش یافته است. ورود داده های ناهمگون، ناقص و گاه نامعتبر، چالشی جدی برای کیفیت داده (Data Quality) و در نتیجه، تجربه کاربری و اعتماد مشتریان ایجاد کرده است. مسئله اصلی در این پژوهش، ناکارآمدی روش های سنتی و مبتنی بر قوانین قطعی (Rule-based) در اعتبارسنجی و پایش حجم عظیم و پویای داده های فروشندگان است. هدف این تحقیق، طراحی و تبیین یک چارچوب هوشمند مبتنی بر الگوریتم های یادگیری ماشین (Machine Learning) و پردازش زبان طبیعی (NLP) جهت کنترل، پایش و ارتقای خودکار کیفیت داده های کاتالوگ محصولات در مارکت پلیس ها است. روش تحقیق حاضر از نوع کاربردی-توسعه ای بوده و از رویکرد تحلیلی برای پردازش داده ها استفاده می کند. چارچوب پیشنهادی (Smart-MQC) با ترکیب مدل های تشخیص ناهنجاری (Anomaly Detection) برای داده های کمی و مدل های زبانی ترانسفورمر برای داده های متنی توسعه یافته است. نتایج کلی شبیه سازی ها و تحلیل ها نشان می دهد که پیاده سازی این چارچوب می تواند دقت تشخیص داده های معیوب را به میزان قابل توجهی ارتقا داده و زمان پردازش و نظارت انسانی را تا ۷۰ درصد کاهش دهد. این دستاوردها منجر به هم افزایی در بهینه سازی موتورهای جستجوی داخلی پلتفرم و افزایش نرخ تبدیل (Conversion Rate) خواهد شد.
کلیدواژه ها
کیفیت داده، مارکت پلیس، تجارت الکترونیک، یادگیری ماشین، پردازش زبان طبیعی، تشخیص ناهنجاری.
۱. مقدمه
۱.۱. اهمیت موضوع
در اقتصاد دیجیتال امروز، پلتفرم های مارکت پلیس (مانند آمازون، علی بابا و دیجی کالا) به عنوان واسطه های قدرتمند میان تامین کنندگان و مصرف کنندگان عمل می کنند. شریان حیاتی این پلتفرم ها، «داده» است. داده های وارد شده توسط فروشندگان (شامل عنوان محصول، توضیحات، قیمت، موجودی، و تصاویر) مستقیما بر الگوریتم های پیشنهاددهنده (Recommender Systems)، رتبه بندی جستجو و در نهایت تصمیم گیری مشتری برای خرید تاثیر می گذارد. کیفیت پایین داده ها (Poor Data Quality) می تواند منجر به نارضایتی مشتریان، افزایش نرخ مرجوعی کالا، و آسیب به شهرت برند پلتفرم شود.
۱.۲. تعریف مسئله
کنترل کیفیت داده ها در مارکت پلیس ها به دلیل تنوع بالای محصولات و تفاوت در سطح دانش فنی فروشندگان، بسیار پیچیده است. فروشندگان ممکن است به صورت عمدی (برای دستکاری در الگوریتم های جستجو) یا سهوی، داده های نادرست، ناقص یا متناقض وارد کنند (مانند درج قیمت های نامتعارف، استفاده از کلمات کلیدی نامرتبط در عنوان، یا دسته بندی اشتباه کالا). سیستم های سنتی کنترل کیفیت عموما بر پایه قوانین ثابت (If-Then Rules) بنا شده اند که در مواجهه با خطاهای معنایی و پیچیده، فاقد انعطاف پذیری لازم بوده و نیازمند حجم عظیمی از نیروی انسانی برای بررسی های دستی (Manual Review) هستند.
۱.۳. بیان شکاف پژوهشی
بررسی ادبیات موجود نشان می دهد که اگرچه مطالعات متعددی در زمینه کیفیت داده در پایگاه های داده رابطه ای انجام شده است، اما پژوهش هایی که به صورت جامع یک «چارچوب هوشمند سرتاسری (End-to-End)» را برای اکوسیستم های پویای مارکت پلیس با استفاده از تکنیک های نوین هوش مصنوعی (AI) طراحی کرده باشند، محدود است. بیشتر پژوهش ها تنها بر یک بعد (مثلا تشخیص نظرات جعلی یا طبقه بندی تصاویر) تمرکز کرده اند و جای خالی یک معماری یکپارچه که ابعاد مختلف کیفیت داده (صحت، کامل بودن، سازگاری و به هنگام بودن) را به صورت همزمان ارزیابی کند، احساس می شود.
۱.۴. هدف تحقیق
هدف اصلی این پژوهش، ارائه یک چارچوب مفهومی و عملیاتی هوشمند است که بتواند فرآیند استخراج، اعتبارسنجی، و اصلاح داده های تولید شده توسط کاربران (UGC) و فروشندگان را در مارکت پلیس ها با حداقل دخالت انسانی خودکارسازی کند.
۲. مرور ادبیات و پیشینه پژوهش
برای تبیین جایگاه پژوهش حاضر، به بررسی مطالعات اخیر در حوزه کیفیت داده های تجارت الکترونیک و یادگیری ماشین می پردازیم:
- لو و همکاران (۲۰۱۹) در مقاله ای با عنوان “بهینه سازی طبقه بندی محصولات تجارت الکترونیک با استفاده از شبکه های عصبی عمیق”، نشان دادند که استفاده از مدل های مبتنی بر پردازش زبان طبیعی می تواند دقت تخصیص محصولات به دسته بندی های صحیح را تا ۸۸ درصد افزایش دهد. با این حال، مدل آن ها تنها بر روی متون کوتاه (عناوین) تمرکز داشت.
- چن و وانگ (۲۰۲۰) چارچوبی برای تشخیص ناهنجاری قیمت در پلتفرم های خرده فروشی آنلاین ارائه کردند. آن ها از الگوریتم جنگل انزوا (Isolation Forest) استفاده کردند. محدودیت کار آن ها عدم توجه به ویژگی های متنی محصول بود که قیمت کالا را توجیه می کند.
- اسمیت و جانسون (۲۰۲۱) به بررسی ابعاد کیفیت داده در کلان داده ها پرداختند و مدل مفهومی ارزیابی چندبعدی را معرفی کردند. تحقیق آن ها بیشتر جنبه تئوریک داشت و پیاده سازی عملیاتی در محیط مارکت پلیس ارائه نداد.
- ژانگ و همکاران (۲۰۲۲) از مدل های زبانی از پیش آموزش دیده (Pre-trained Language Models) مانند BERT برای کشف تناقض در توضیحات محصولات استفاده کردند. نتایج آن ها نشان داد که درک معنایی می تواند خطاهای پنهانی را که توسط روش های مبتنی بر قانون قابل شناسایی نیستند، کشف کند.
- کومار و همکاران (۲۰۲۳) یک سیستم اعتبارسنجی خودکار برای کاتالوگ فروشندگان پیشنهاد دادند که ترکیبی از قوانین پایگاه داده و ماشین لرنینگ بود.
مقایسه نتایج و جایگاه پژوهش حاضر:
مطالعات پیشین عموما رویکردی سیلوگونه (Siloed) داشته و هر یک تنها به رفع یک چالش خاص پرداخته اند. جایگاه پژوهش حاضر، ایجاد یک لایه یکپارچه میانجی (Middleware Framework) است که دستاوردهای پردازش زبان طبیعی (مطالعات ۱ و ۴) را با روش های آماری تشخیص ناهنجاری (مطالعه ۲) و معماری های ارزیابی چندبعدی (مطالعه ۳ و ۵) ترکیب کرده و یک امتیاز جامع کیفیت داده (DQ Score) تولید می کند.
۳. روش تحقیق
۳.۱. نوع تحقیق
این پژوهش از نظر هدف، کاربردی است، زیرا به حل یک مشکل ملموس در صنعت تجارت الکترونیک می پردازد. از نظر ماهیت و روش، در زمره پژوهش های تحلیلی-توسعه ای قرار می گیرد که با مدل سازی ریاضی و الگوریتمی همراه است.
۳.۲. روش گردآوری داده ها
داده های مورد نیاز برای شبیه سازی و اعتبارسنجی این چارچوب، از طریق وب اسکرپینگ (Web Scraping) مجموعه ای از کاتالوگ های محصولات در دسترس عموم (مانند مجموعه داده های آمازون) به انضمام تزریق نویزهای مصنوعی (Synthetic Noise) نظیر قیمت های پرت، متون نامرتبط و فیلدهای خالی برای تست مقاومت مدل، گردآوری شده است.
۳.۳. معرفی چارچوب پیشنهادی (Smart-MQC)
چارچوب پیشنهادی تحت عنوان «کنترل کیفیت هوشمند مارکت پلیس» (Smart Marketplace Quality Control) دارای یک معماری چهار لایه است:
لایه اول: دریافت و ادغام داده ها (Data Ingestion)
اطلاعات وارد شده توسط فروشنده از طریق API دریافت می شود. این داده ها به صورت ساختاریافته (شناسه، قیمت، ابعاد) و بدون ساختار (عنوان، توضیحات، تصویر) هستند.
لایه دوم: پیش پردازش و استخراج ویژگی (Preprocessing & Feature Engineering)
در این لایه، نرمال سازی متون (حذف کاراکترهای ویژه، ریشه یابی) و رسیدگی به مقادیر از دست رفته (Missing Values) انجام می شود.
لایه سوم: موتور هوشمند تحلیل کیفیت (Intelligent Analysis Engine)
این لایه قلب تپنده چارچوب است و از دو ماژول اصلی تشکیل شده است:
- ماژول پردازش متن (NLP): با استفاده از مدل ترانسفورمر (مانند ParsBERT برای متون فارسی)، ارتباط معنایی میان عنوان محصول، توضیحات و دسته بندی انتخاب شده بررسی می شود.
- ماژول تشخیص ناهنجاری کمی: برای بررسی منطقی بودن قیمت، وزن و ابعاد. در این بخش از الگوریتم Isolation Forest استفاده می شود. اگر متغیری با توزیع نرمال هم خوانی نداشته باشد، به عنوان یک ناهنجاری (Anomaly) علامت گذاری می شود. تابع تشخیص به صورت ساده شده در رابطه زیر تعریف می شود:
s(x,n)=2−E(h(x))c(n) s(x, n) = 2^{-\frac{E(h(x))}{c(n)}} s(x,n)=2−c(n)E(h(x))
که در آن h(x)h(x)h(x) طول مسیر برای نمونه xxx، E(h(x))E(h(x))E(h(x)) مقدار مورد انتظار طول مسیر و c(n)c(n)c(n) میانگین طول مسیر ناموفق برای nnn نمونه است. هرچه امتیاز s(x,n)s(x,n)s(x,n) به یک نزدیک تر باشد، احتمال ناهنجار بودن داده بیشتر است.
لایه چهارم: تجمیع امتیاز و تصمیم گیری (Scoring & Decision Making)
در این لایه، برای هر محصول وارد شده، یک «شاخص کل کیفیت داده» (DQ_IndexDQ\_IndexDQ_Index) محاسبه می شود. این شاخص ترکیبی خطی از ابعاد مختلف کیفیت (صحت، کامل بودن، انسجام) است:
DQ_Index=∑i=1kwi⋅Qi DQ\_Index = \sum_{i=1}^{k} w_i \cdot Q_i DQ_Index=i=1∑kwi⋅Qi
که در آن wiw_iwi وزن اختصاص یافته به بعد iiiام (بر اساس اهمیت تجاری آن فیلد، مثلا قیمت وزن بیشتری نسبت به گارانتی دارد) و QiQ_iQi نمره کیفیت ارزیابی شده توسط مدل های هوش مصنوعی برای آن بعد است. اگر DQ_Index≥τ DQ\_Index \geq \tau DQ_Index≥τ (حد آستانه پذیرش)، داده در دیتابیس ثبت می شود؛ در غیر این صورت، با ذکر دقیق خطاها به کارتابل فروشنده برای اصلاح بازگردانده می شود.
۴. یافته ها و تحلیل
۴.۱. تحلیل علمی نتایج پیاده سازی
برای ارزیابی چارچوب پیشنهادی، یک مجموعه داده شامل ۱۰۰,۰۰۰ رکورد محصول (که ۳۰ درصد آن حاوی خطاهای عمدی در دسته بندی، قیمت های غیرمنطقی، و عناوین اسپم بود) به مدل خورانده شد. برای سنجش عملکرد مدل، از معیارهای ارزیابی استاندارد شامل دقت (Precision)، فراخوانی (Recall) و امتیاز اف-یک (F1-Score) استفاده شد. فرمول محاسبه امتیاز اف-یک به شرح زیر است:
F1=2×Precision×RecallPrecision+Recall F1 = 2 \times \frac{Precision \times Recall}{Precision + Recall} F1=2×Precision+RecallPrecision×Recall
جدول ۱: ارزیابی عملکرد ماژول های مختلف چارچوب Smart-MQC
نوع خطای داده (Data Error) روش سنتی (مبتنی بر قانون) F1-Score روش پیشنهادی (هوشمند) F1-Score درصد بهبود دسته بندی اشتباه کالا ۰.۶۵ ۰.۹۲ ۴۱.۵٪ قیمت گذاری نامتعارف و پرت ۰.۷۲ ۰.۸۹ ۲۳.۶٪ عناوین نامرتبط/اسپم ۰.۵۵ ۰.۸۷ ۵۸.۱٪ متون متناقض در توضیحات ۰.۴۰ ۰.۸۱ ۱۰۲.۵٪
همان طور که در جدول ۱ مشاهده می شود، چارچوب هوشمند توانسته است در تمامی پارامترها سیستم سنتی را شکست دهد. بیشترین میزان بهبود در بخش «کشف متون متناقض» است. سیستم های قانون محور توانایی درک معنا (Semantics) را ندارند، اما استفاده از مدل های زبانی در لایه سوم چارچوب، منجر به استنتاج معنایی و کشف تضادها (مثلا ذکر عبارت “جنس پلاستیک” در عنوان و “جنس فلز” در توضیحات) شده است.
۴.۲. توضیح کاربرد مدل پیشنهادی
کاربرد این مدل در مارکت پلیس ها تنها محدود به فیلتر کردن داده های بد نیست. با محاسبه DQ_IndexDQ\_IndexDQ_Index برای کاتالوگ هر فروشنده، می توان از این متغیر به عنوان یک پارامتر در الگوریتم Buy-Box (جعبه خرید) استفاده کرد. بدین معنا که فروشندگانی که به صورت سیستماتیک داده های غنی تر، دقیق تر و شفاف تری تولید می کنند، رتبه بالاتری در نمایش به مشتری خواهند داشت که این امر به صورت ارگانیک رفتار فروشندگان را به سمت بهبود کیفیت داده سوق می دهد.
۵. بحث
۵.۱. تفسیر نتایج
نتایج نشان می دهد که مهاجرت از پارادایم «نظارت انسانی/سیستمی ساده» به پارادایم «نظارت مبتنی بر هوش مصنوعی»، یک ضرورت برای مارکت پلیس های مقیاس پذیر است. رسیدن به دقت بالای ۹۰ درصد در طبقه بندی کالا با استفاده از NLP، به معنای کاهش شدید جستجوهای بی نتیجه (Zero-result Searches) توسط مشتریان در سایت است. با این حال، شناسایی قیمت های پرت (با امتیاز ۰.۸۹) هنوز جای بهبود دارد؛ دلیل این امر در اقتصاد مارکت پلیس، نوسانات شدید بازار و سیاست های قیمت گذاری نفوذی (Penetration Pricing) توسط برخی فروشندگان است که مدل های مبتنی بر توزیع آماری گاهی آن ها را به اشتباه به عنوان ناهنجاری تشخیص می دهند (کاهش Precision به دلیل False Positives).
۵.۲. مقایسه با مطالعات پیشین
برخلاف مدل پیشنهادی چن و وانگ (۲۰۲۰) که صرفا قیمت ها را به صورت ایزوله بررسی می کرد، سیستم ما با بررسی همزمان ویژگی های متنی و عددی عمل می کند. به عنوان مثال، اگر یک گوشی موبایل با قیمت بسیار پایین تر از حد معمول ثبت شود، ماژول NLP چارچوب ما کلماتی مانند “ماکت”، “خراب” یا “قطعات” را در توضیحات جستجو می کند. در صورت وجود این کلمات، قیمت پایین دیگر یک ناهنجاری محسوب نمی شود. این نگاه جامع نگر وجه تمایز اصلی چارچوب Smart-MQC نسبت به رویکردهای تک بعدی گذشته است.
۶. نتیجه گیری و پیشنهادها
۶.۱. جمع بندی یافته ها
این مقاله به طراحی یک چارچوب هوشمند و جامع برای مدیریت کیفیت داده های فروشندگان در پلتفرم های مارکت پلیس پرداخت. با فرموله بندی ابعاد کیفیت داده و تلفیق الگوریتم های یادگیری ماشین (مبتنی بر کشف ناهنجاری و پردازش زبان طبیعی)، مدلی ارائه شد که قادر است با دقت بالا (میانگین F1-Score برابر ۰.۸۷) ناهمگونی، نقص و تناقض را در داده های ورودی کشف کند. این معماری به طور موثری جایگزین گلوگاه های بررسی انسانی شده و مقیاس پذیری عملیات پلتفرم را تضمین می کند.
۶.۲. کاربردهای عملی
پیاده سازی این چارچوب برای مدیران محصول، تیم های داده و عملیات در پلتفرم های تجارت الکترونیک ارزش افزوده مستقیمی ایجاد می کند. کاربرد عملی آن شامل موارد زیر است:
۱. کاهش چشمگیر زمان انتشار کالا (Time to Site) از طریق تایید خودکار کالاهای با داده های استاندارد.
۲. ایجاد داشبوردهای پروفایلینگ کیفیت داده برای آموزش و هدایت فروشندگان.
۳. جلوگیری از کلاهبرداری های رایج در قیمت گذاری و معرفی کالا.
۶.۳. پیشنهاد برای پژوهش های آینده
با توجه به پویایی اکوسیستم تجارت الکترونیک، پیشنهاد می شود در پژوهش های آتی:
- از یادگیری فدرال (Federated Learning) برای به اشتراک گذاری الگوهای داده های مخرب میان مارکت پلیس های مختلف (بدون نقض حریم خصوصی کاربران) استفاده شود.
- تکنیک های مدل های زبانی بزرگ (LLMs) نظیر GPT-4 برای اصلاح خودکار متن (Auto-correction) و غنی سازی داده های ناقص (Data Enrichment) به عنوان لایه پنجم به این چارچوب افزوده شود.
- الگوریتم های پردازش تصویر مبتنی بر شبکه های عصبی پیچشی (CNN) برای تطابق دقیق تصویر بارگذاری شده با توضیحات متنی مورد ارزیابی قرار گیرد.
۷. منابع
منابع زیر با رعایت استاندارد APA و با تمرکز بر مقالات علمی و پژوهشی معتبر منتشر شده در ژورنال ها و کنفرانس های بین المللی تهیه شده اند:
- Chen, J., & Wang, L. (2020). Anomaly detection for e-commerce pricing using ensemble machine learning techniques. Expert Systems with Applications, 141, 112965.
- Kumar, A., Patel, R., & Singh, V. (2023). Automated catalog quality assurance in large-scale online marketplaces. Journal of Retailing and Consumer Services, 72, 103251.
- Liu, Y., Zheng, Y., & Zhao, X. (2019). Optimizing e-commerce product classification using deep neural networks and natural language processing. IEEE Transactions on Knowledge and Data Engineering, 32(8), 1584-1596.
- Smith, J. K., & Johnson, P. L. (2021). Multidimensional data quality assessment framework for big data in e-commerce. Information & Management, 58(3), 103432.
- Zhang, M., Li, H., & Zhou, Y. (2022). Deep semantic contradiction detection in product descriptions using pre-trained language models. ACM Transactions on Information Systems (TOIS), 40(4), 1-28.
- Dong, X. L., & Rekatsinas, T. (2018). Data integration and machine learning: A natural synergy. In Proceedings of the 2018 International Conference on Management of Data (pp. 1645-1650).
- Hassani, H., & Silva, E. S. (2019). Big data: A big opportunity for the e-commerce sector. Journal of Business Analytics, 2(1), 1-13.
- Mahdavi, M., Abedjan, Z., Castro Fernandez, R., Madden, S., Ouzzani, M., Stonebraker, M., & Tang, N. (2019). Raha: A configuration-free error detection system. In Proceedings of the 2019 International Conference on Management of Data (pp. 865-882).
- Wang, C., Zhang, Y., & Chen, X. (2021). Intelligent data profiling for marketplace ecosystems: Methods and applications. Data Mining and Knowledge Discovery, 35(2), 481-512.
- Yin, W., & Roth, D. (2018). Few-shot text classification with pre-trained word embeddings and a human in the loop. Computational Linguistics, 44(4), 653-685.