طراحی مدل تشخیص خودکار اطلاعات ناقص در پایگاه داده محصولات با استفاده از تکنیک های یادگیری ماشین

3 تیر 1405 - خواندن 10 دقیقه - 9 بازدید

چکیده

امروزه با گسترش روزافزون تجارت الکترونیک، کیفیت داده های محصولات در پایگاه های داده نقش حیاتی در تجربه کاربری، تصمیم گیری خرید و کارایی سیستم های توصیه گر ایفا می کند. یکی از چالش های اساسی در این حوزه، وجود اطلاعات ناقص، مبهم یا جاافتاده در ویژگی های محصولات است که به صورت دستی قابل شناسایی و اصلاح در مقیاس کلان نیست. هدف از این پژوهش، طراحی و توسعه یک مدل هوشمند مبتنی بر یادگیری ماشین برای تشخیص خودکار اطلاعات ناقص در دیتابیس محصولات است. در این راستا، از یک رویکرد ترکیبی شامل پردازش زبان طبیعی (NLP) برای تحلیل متون توضیحات محصول و الگوریتم های یادگیری نظارت شده (مانند جنگل تصادفی و XGBoost) استفاده شده است. داده های مورد استفاده شامل مجموعه ای از رکوردهای محصولات فروشگاهی است که برچسب گذاری شده اند. نتایج ارزیابی مدل نشان می دهد که الگوریتم XGBoost با بهره گیری از تعبیه های متنی (Word Embeddings) توانسته است با دقت (Precision) ۹۲ درصد و امتیاز اف-یک (F1−ScoreF1-ScoreF1−Score) ۹۰ درصد، رکوردهای دارای اطلاعات ناقص را با موفقیت شناسایی کند. این پژوهش نشان می دهد که خودکارسازی فرآیند کنترل کیفیت داده ها می تواند هزینه های عملیاتی را به شدت کاهش داده و یکپارچگی داده ها را تضمین نماید.

کلیدواژه ها: یادگیری ماشین، کیفیت داده، اطلاعات ناقص، پایگاه داده محصولات، پردازش زبان طبیعی، تجارت الکترونیک.

۱. مقدمه

اهمیت موضوع: در عصر داده محور کنونی، پایگاه های داده کاتالوگ محصولات به عنوان هسته مرکزی سیستم های مدیریت اطلاعات محصول (PIM) در پلتفرم های تجارت الکترونیک شناخته می شوند. کیفیت این داده ها مستقیما بر قابلیت جستجو، فیلتر کردن محصولات و در نهایت نرخ تبدیل فروشگاه های اینترنتی تاثیر می گذارد. داده های بی کیفیت یا ناقص می توانند منجر به نارضایتی مشتریان و بازگشت کالا شوند.

تعریف مسئله: اطلاعات ناقص (Incomplete Information) تنها به معنای خالی بودن فیلدها (Null values) نیست؛ بلکه شامل مواردی است که توضیحات محصول فاقد ویژگی های کلیدی (مانند ابعاد، جنس، گارانتی یا رنگ) برای یک دسته بندی خاص باشد. تشخیص این نوع نقص معنایی با استفاده از قوانین مبتنی بر شرط (Rule-based) بسیار پیچیده و غیرقابل انعطاف است.

بیان شکاف پژوهشی: در حالی که پژوهش های متعددی بر روی پر کردن مقادیر از دست رفته (Data Imputation) تمرکز کرده اند، مطالعات کمتری به تشخیص هوشمند نقص اطلاعات پنهان در متون غیرساختاریافته و ویژگی های متنی محصولات پرداخته اند. سیستم های سنتی عمدتا بر بررسی فیلدهای خالی متکی هستند و توانایی درک نیازمندی های معنایی هر دسته از محصولات را ندارند.

هدف تحقیق: هدف اصلی این پژوهش، ارائه یک چارچوب یادگیری ماشین برای شناسایی خودکار رکوردهای دارای اطلاعات ناقص در پایگاه داده محصولات است، به طوری که مدل بتواند با تحلیل الگوهای متنی و ساختاری، نقص در توصیف ویژگی های کلیدی را تشخیص دهد.

۲. مرور ادبیات و پیشینه پژوهش

در سال های اخیر، استفاده از هوش مصنوعی برای بهبود کیفیت داده ها توجه بسیاری از محققان را جلب کرده است:

  • پژوهش چن و همکاران (۲۰۱۹): این محققان از شبکه های عصبی عمیق برای تشخیص ناهنجاری در داده های اینترنت اشیا استفاده کردند. مدل آن ها بر داده های عددی تمرکز داشت و انعطاف پذیری لازم برای داده های متنی محصولات را نداشت.
  • پژوهش اسمیت و لی (۲۰۲۰): در مطالعه ای به بررسی روش های مدیریت کاتالوگ محصولات پرداختند و نشان دادند که استفاده از تکنیک های استخراج اطلاعات (Information Extraction) می تواند به غنی سازی داده ها کمک کند. با این حال، فرآیند تشخیص نقص در این پژوهش به صورت نیمه خودکار بود.
  • پژوهش وانگ و همکاران (۲۰۲۱): یک چارچوب مبتنی بر BERT برای استخراج ویژگی از متون تجارت الکترونیک ارائه دادند. نتایج آن ها نشان داد که مدل های ترانسفورمر در درک معنای متون تجاری بسیار موفق عمل می کنند.
  • پژوهش رضایی و همکاران (۲۰۲۲): در یک مطالعه داخلی، به بررسی تاثیر کیفیت داده ها بر سیستم های توصیه گر پرداختند و اثبات کردند که حذف رکوردهای ناقص یا تکمیل آن ها می تواند تا ۱۵ درصد دقت توصیه ها را افزایش دهد.
  • پژوهش گارسیا و مارتینز (۲۰۲۳): از الگوریتم های درخت تصمیم برای پروفایل سازی داده ها (Data Profiling) استفاده کردند. این روش برای داده های ساختاریافته عالی بود اما در مواجهه با توضیحات متنی طولانی دچار افت عملکرد می شد.

جایگاه پژوهش حاضر: تحقیق حاضر با ترکیب روش های پردازش زبان طبیعی برای تحلیل فیلدهای متنی (مانند توضیحات کالا) و الگوریتم های طبقه بندی پیشرفته برای تحلیل فیلدهای ساختاریافته، یک رویکرد جامع (End-to-End) ارائه می دهد که هم نقص های ساختاری و هم نقص های معنایی را پوشش می دهد.

۳. روش تحقیق

نوع تحقیق: این پژوهش از نظر هدف، یک تحقیق «کاربردی» و از نظر روش شناسی، «توصیفی-تحلیلی» است که با استفاده از مدل سازی ریاضی و الگوریتم های محاسباتی انجام شده است.

روش گردآوری داده ها: داده های مورد نیاز از یک مجموعه داده عمومی و استاندارد تجارت الکترونیک در پلتفرم Kaggle (شامل ۵۰,۰۰۰ رکورد محصول در دسته بندی های الکترونیک، پوشاک و لوازم خانگی) استخراج شده است. از این تعداد، ۲۰ درصد رکوردها به صورت دستی و با تزریق نویز (حذف ویژگی های کلیدی از متن توضیحات) به عنوان «داده ناقص» برچسب گذاری شدند.

معرفی مدل و چارچوب پیشنهادی:

چارچوب پیشنهادی شامل سه فاز اصلی است:

  1. پیش پردازش و استخراج ویژگی: ابتدا فیلدهای ساختاریافته (قیمت، برند، دسته بندی) نرمال سازی می شوند. برای فیلدهای متنی (عنوان و توضیحات محصول)، پس از حذف کلمات توقف (Stop-words) و ریشه یابی، از مدل تعبیه کلمات TF-IDF و در نسخه پیشرفته تر از مدل زبانی BERT برای تبدیل متن به بردارهای عددی استفاده می گردد.
  2. یادگیری و آموزش مدل: مسئله به صورت یک طبقه بندی دودویی (Binary Classification) تعریف می شود (کامل در برابر ناقص). الگوریتم های مورد استفاده شامل ماشین بردار پشتیبان (SVM)، جنگل تصادفی (Random Forest) و XGBoost می باشند.
  3. معماری ارزیابی: برای ارزیابی مدل از ماتریس درهم ریختگی (Confusion Matrix) و معیارهای استاندارد زیر استفاده می شود:

Precision=TPTP+FPPrecision = \frac{TP}{TP + FP}Precision=TP+FPTP​

Recall=TPTP+FNRecall = \frac{TP}{TP + FN}Recall=TP+FNTP​

F1=2×Precision×RecallPrecision+RecallF1 = 2 \times \frac{Precision \times Recall}{Precision + Recall}F1=2×Precision+RecallPrecision×Recall​

۴. یافته ها و تحلیل

مدل های توسعه یافته بر روی ۸۰ درصد داده ها آموزش دیده و بر روی ۲۰ درصد مابقی تست شدند. نتایج حاصل از اجرای الگوریتم ها نشان دهنده برتری محسوس روش های مبتنی بر درخت های تقویت شده (Ensemble Methods) است.

  • مدل SVM (با ویژگی های TF-IDF): دقت ۸۱٪، فراخوانی ۷۶٪، امتیاز F1 معادل ۷۸٪.
  • مدل جنگل تصادفی (Random Forest): دقت ۸۶٪، فراخوانی ۸۲٪، امتیاز F1 معادل ۸۴٪.
  • مدل XGBoost (ترکیب ویژگی های ساختاری و بردارهای BERT): دقت ۹۲٪، فراخوانی ۸۸٪، امتیاز F1 معادل ۹۰٪.

تحلیل علمی: دلیل عملکرد بهتر XGBoost همراه با BERT این است که مدل BERT قادر است روابط معنایی میان کلمات را درک کند. برای مثال، اگر در دسته بندی “لپ تاپ”، کلماتی نظیر “RAM” یا “Processor” در متن توضیحات یافت نشود، مدل متوجه نقص اطلاعاتی در یک ویژگی حیاتی برای آن دسته بندی خاص می شود، در حالی که این کلمات برای دسته بندی “پوشاک” اهمیتی ندارند.

توضیح کاربرد مدل پیشنهادی: این مدل می تواند به عنوان یک سرویس (Microservice) در سیستم های انبارداری و ثبت کالای فروشگاه های اینترنتی ادغام شود. هنگامی که یک تامین کننده محصول جدیدی ثبت می کند، سیستم در لحظه (Real-time) کالا را اسکن کرده و در صورت تشخیص نقص در اطلاعات، به تامین کننده هشدار می دهد که ویژگی های خاصی را تکمیل کند.

۵. بحث

تفسیر نتایج: یافته های این پژوهش تایید می کند که تکنیک های سنتی کنترل کیفیت داده که صرفا به دنبال مقادیر Null می گردند، برای پایگاه داده های مدرن تجارت الکترونیک کافی نیستند. نرخ بالای شناسایی (Recall = ۸۸٪) در مدل پیشنهادی نشان می دهد که می توان بخش عظیمی از خطاهای انسانی در ثبت کالا را پیش از انتشار در وب سایت شناسایی کرد.

مقایسه با مطالعات پیشین: در مقایسه با پژوهش گارسیا و مارتینز (۲۰۲۳) که تنها از پروفایل سازی آماری استفاده کرده بودند، مدل حاضر به دلیل استفاده از پردازش زبان طبیعی عمیق، در مواجهه با توضیحات متنی نامنظم عملکرد بسیار پایدارتری نشان داده است. همچنین سرعت استنتاج الگوریتم XGBoost آن را برای استفاده در محیط های عملیاتی با تراکنش بالا مناسب تر از شبکه های عصبی بسیار عمیق (نظیر پژوهش چن و همکاران، ۲۰۱۹) می سازد.

۶. نتیجه گیری و پیشنهادها

جمع بندی یافته ها: در این مقاله یک رویکرد نوین برای تشخیص خودکار رکوردهای ناقص در دیتابیس محصولات ارائه شد. با ترکیب استخراج ویژگی های معنایی از طریق پردازش زبان طبیعی و طبقه بندی قدرتمند با الگوریتم XGBoost، مدلی با دقت ۹۲ درصد برای شناسایی ناهنجاری های اطلاعاتی توسعه یافت. این مدل نشان داد که یادگیری ماشین توانایی بالایی در درک نیازمندی های اطلاعاتی هر دسته از محصولات دارد.

کاربردهای عملی: این سیستم مستقیما در پلتفرم های تجارت الکترونیک (مثل دیجی کالا یا آمازون)، سیستم های ERP و نرم افزارهای PIM برای فیلترینگ خودکار کالاهای بی کیفیت پیش از نمایش به کاربر، قابل پیاده سازی است.

پیشنهاد برای پژوهش های آینده:

  1. استفاده از مدل های تولیدی (Generative AI) مانند GPT برای پیشنهاد خودکار متن و پر کردن هوشمند بخش های ناقص پس از تشخیص.
  2. توسعه مدل برای پردازش داده های چندرسانه ای (Multimodal)، به نحوی که مدل بتواند همزمان متن کاتالوگ و تصویر محصول را بررسی کرده و تضاد یا نقص اطلاعاتی بین عکس و متن را تشخیص دهد.

۷. منابع

  1. Chen, J., et al. (2019). “Deep learning for data anomaly detection in IoT networks.” IEEE Internet of Things Journal, 6(5), 8123-8134.
  2. Smith, A., & Lee, K. (2020). “Information extraction techniques for e-commerce product catalog management.” Journal of Electronic Commerce Research, 21(3), 145-162.
  3. Wang, Y., et al. (2021). “BERT-based text feature extraction for e-commerce applications.” Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, 2341-2350.
  4. Rezaei, M., & Shirazi, M. (2022). “The impact of data quality on recommender systems in e-commerce.” International Journal of Information Management Data Insights, 2(1), 100065.
  5. Garcia, L., & Martinez, D. (2023). “Automated data profiling for structured datasets using decision trees.” Data & Knowledge Engineering, 142, 102081.
  6. Zhang, H., et al. (2019). “Missing value imputation in product databases using machine learning.” Expert Systems with Applications, 130, 21-34.
  7. Patel, R., & Kumar, S. (2021). “Data quality assessment frameworks for big data in e-commerce.” Journal of Big Data, 8(1), 1-22.
  8. Li, X., & Wu, J. (2020). “Ensemble learning methods for text classification in retail domains.” Information Processing & Management, 57(2), 102167.
  9. Al-Obeidat, F., et al. (2022). “Natural language processing for analyzing product reviews and descriptions.” Computers in Human Behavior, 126, 107015.
  10. Thompson, C. (2023). “Real-time anomaly detection in product catalog streams using XGBoost.” Journal of Retail Technology, 14(4), 312-328.