Raha Hasanabadi

شناسایی الگوهای نادرست در توضیحات محصول پلتفرم های تجارت الکترونیک با استفاده از الگوریتم های تشخیص ناهنجاری مبتنی بر پردازش زبان طبیعی

24 خرداد 1405 - خواندن 14 دقیقه - 34 بازدید

چکیده

با توسعه روزافزون پلتفرم های تجارت الکترونیک، کیفیت داده های مرتبط با کاتالوگ محصولات به یکی از ارکان اساسی در جلب اعتماد مشتریان و کاهش نرخ مرجوعی کالا تبدیل شده است. مسئله اصلی این پژوهش، وجود الگوهای نادرست، متناقض و فریبنده در توضیحات محصولاتی است که توسط فروشندگان شخص ثالث (Third-party Sellers) تولید می شوند. هدف این تحقیق، طراحی و توسعه یک چارچوب هوشمند مبتنی بر پردازش زبان طبیعی (NLP) و الگوریتم های تشخیص ناهنجاری جهت شناسایی خودکار این الگوهای نامتعارف در متون فارسی است. این پژوهش از نظر هدف، کاربردی و از منظر روش شناسی، تحلیلی-توصیفی می باشد. در این راستا، مجموعه داده ای شامل ۵۰,۰۰۰ توضیح محصول از پلتفرم های فروشگاهی جمع آوری گردید. پس از پیش پردازش و استخراج ویژگی ها با استفاده از مدل زبانی مبتنی بر ترانسفورمر (ParsBERT)، از الگوریتم های جنگل انزوا (Isolation Forest) و رمزگذار خودکار عمیق (Deep Autoencoder) برای شناسایی ناهنجاری ها استفاده شد. نتایج نشان می دهد که مدل ترکیبی رمزگذار خودکار به همراه تعبیه های متنی، با دستیابی به امتیاز F1−ScoreF_1-ScoreF1−Score برابر با ۰.۸۹، عملکرد بسیار مطلوبی در شناسایی الگوهای سئوی کلاه سیاه (Keyword Stuffing)، تناقضات معنایی و خطاهای ساختاری دارد. پیاده سازی این رویکرد می تواند به طور قابل توجهی بار پردازش دستی ناظران کنترل کیفیت را کاهش داده و تجربه کاربری را بهبود بخشد.

کلیدواژه ها: تشخیص ناهنجاری، توضیحات محصول، تجارت الکترونیک، پردازش زبان طبیعی، یادگیری ماشین، کیفیت داده، مدل های زبانی عمیق.

۱. مقدمه

اهمیت موضوع: در عصر اقتصاد دیجیتال، متن توضیحات محصول به عنوان نقطه تماس اصلی میان کسب وکار و مشتری عمل می کند. کیفیت این متون تاثیر مستقیمی بر نرخ تبدیل (Conversion Rate)، بهینه سازی موتورهای جستجو (SEO) و اعتماد مصرف کننده دارد. با گذار پلتفرم های فروشگاهی به مدل بازارگاه (Marketplace)، حجم ورود داده ها توسط فروشندگان مختلف به شکل تصاعدی افزایش یافته است که این امر چالش های جدی در زمینه تضمین کیفیت داده ها (Data Quality Assurance) ایجاد کرده است.

تعریف مسئله: الگوهای نادرست در توضیحات محصول طیف وسیعی از ناهنجاری ها را شامل می شوند؛ از جمله: تکرار بیش از حد و نامرتبط کلمات کلیدی برای فریب الگوریتم های جستجو، درج اطلاعات متناقض با عنوان یا ویژگی های فنی کالا، استفاده از کاراکترهای نامتعارف و نگارش بی محتوا یا تولید شده توسط ربات های تقلب گر. بررسی دستی این حجم از اطلاعات توسط تیم های کنترل کیفیت غیرممکن، زمان بر و پرهزینه است.

بیان شکاف پژوهشی: با وجود اینکه تحقیقات گسترده ای در زمینه تشخیص نظرات جعلی (Fake Review Detection) و فیلتر هرزنامه ها در شبکه های اجتماعی انجام شده است، تمرکز بر کیفیت ساختاری و معنایی «توضیحات محصول» به عنوان یک موجودیت داده ای مستقل، کمتر مورد توجه پژوهشگران قرار گرفته است. به ویژه در زبان فارسی، به دلیل پیچیدگی های صرفی و نحوی و کمبود ابزارهای استاندارد، این خلا تحقیقاتی بیشتر احساس می شود.

هدف تحقیق: این پژوهش با هدف پر کردن شکاف مذکور، به دنبال ارائه یک چارچوب مقیاس پذیر و خودکار است که بتواند با ترکیب تکنیک های نوین نمایش متن (Text Representation) و الگوریتم های تشخیص ناهنجاری (Anomaly Detection)، الگوهای متنی خارج از هنجار (Outliers) را در کاتالوگ محصولات با دقت بالا شناسایی کند.

۲. مرور ادبیات و پیشینه پژوهش

در سال های اخیر، همگرایی تجارت الکترونیک و هوش مصنوعی منجر به تولید ادبیات علمی غنی در حوزه پردازش داده های متنی شده است. در ادامه به بررسی ۵ پژوهش کلیدی در این حوزه می پردازیم:

۱. وانگ و همکاران (۲۰۲۱): در پژوهشی به بررسی کیفیت داده های کاتالوگ محصولات در آمازون پرداختند. آن ها از یک سیستم مبتنی بر قوانین (Rule-based) ترکیب شده با شبکه های عصبی کانولوشنی (CNN) برای شناسایی متون ناقص استفاده کردند. نقطه ضعف مدل آن ها، ناتوانی در درک تناقضات معنایی پنهان بود.

۲. حسینی و رحیمی (۲۰۲۲): در یک مطالعه داخلی، به تشخیص هرزنامه (Spam) در نظرات کاربران فروشگاه های ایرانی با استفاده از ماشین بردار پشتیبان (SVM) و درخت تصمیم پرداختند. اگرچه دقت مدل بالا بود، اما جامعه آماری آن ها محدود به نظرات (Reviews) بود و ساختار رسمی توضیحات محصول را شامل نمی شد.

۳. گارسیا و لی (۲۰۲۰): از الگوریتم جنگل انزوا (Isolation Forest) برای کشف ناهنجاری در ترافیک شبکه و داده های لاگ وب سایت های فروشگاهی استفاده کردند. آن ها نشان دادند که این الگوریتم در فضاهای با ابعاد بالا (High-dimensional) عملکرد بسیار کارآمدی دارد که این یافته می تواند به فضاهای برداری متنی نیز تعمیم یابد.

۴. سینگ و همکاران (۲۰۲۳): چارچوبی مبتنی بر معماری BERT برای دسته بندی خودکار محصولات بر اساس توضیحات آن ها ارائه دادند. پژوهش آن ها ثابت کرد که مدل های ترانسفورمر توانایی بی نظیری در استخراج زمینه (Context) و معناشناسی متون تجاری دارند.

۵. چن و ژانگ (۲۰۱۹): یک مدل رمزگذار خودکار (Autoencoder) برای تشخیص متون دارای ناهنجاری ساختاری در پایگاه داده های پزشکی پیشنهاد دادند. نتایج آن ها نشان داد که خطای بازسازی (Reconstruction Error) معیار مناسبی برای کشف داده های پرت در متون تخصصی است.

جایگاه پژوهش حاضر: پژوهش حاضر با تلفیق یافته های پیشین، از قدرت درک معنایی مدل های ترانسفورمر (مشابه پژوهش سینگ) و قابلیت های تشخیص ناهنجاری بدون نظارت (مشابه گارسیا و چن) استفاده می کند تا یک سیستم بومی سازی شده برای متون تجاری زبان فارسی ارائه دهد. بر خلاف مطالعات مبتنی بر قوانین، مدل پیشنهادی قادر است الگوهای تقلب نوظهور را به صورت پویا و بدون نیاز به برچسب گذاری قبلی شناسایی کند.

۳. روش تحقیق

این پژوهش از نظر هدف در زمره تحقیقات کاربردی قرار دارد و از نظر ماهیت و روش، رویکردی تحلیلی-محاسباتی (توصیفی-پیمایشی در بستر کلان داده) را اتخاذ کرده است.

۳.۱. روش گردآوری داده ها

به منظور انجام این پژوهش، یک خزشگر وب (Web Crawler) مبتنی بر کتابخانه های Scrapy و BeautifulSoup در زبان پایتون توسعه یافت. اطلاعات ۵۰ هزار محصول در دسته بندی های مختلف (لوازم الکترونیکی، پوشاک، آرایشی و بهداشتی) از سه پلتفرم بزرگ تجارت الکترونیک ایران جمع آوری شد. فیلدهای استخراج شده شامل شناسه محصول، عنوان، برند و متن کامل توضیحات بود.

۳.۲. پیش پردازش داده های متنی

آماده سازی متون فارسی مستلزم طی کردن مراحل دقیقی است. از کتابخانه Hazm (هضم) برای انجام مراحل زیر استفاده شد:

نرمال سازی (Normalization): یکسان سازی فاصله ها، نیم فاصله ها و نویسه های عربی به فارسی.
حذف ایست واژه ها (Stop-words Removal): حذف کلماتی که بار معنایی مستقلی ندارند (مانند: از، به، در).
ریشه یابی (Lemmatization): تبدیل کلمات به بن ماضی یا مضارع آن ها.

پس از پیش پردازش، برای تبدیل متن به بردارهای عددی قابل فهم برای ماشین، از مدل زبانی ParsBERT (مبتنی بر معماری BERT آموزش دیده روی پیکره متون فارسی) استفاده شد تا هر توضیح محصول به یک بردار متراکم ۷۶۸۷۶۸۷۶۸ بعدی نگاشت شود.

۳.۳. معرفی مدل و چارچوب پیشنهادی

با توجه به اینکه شناسایی الگوهای نادرست اساسا یک مسئله با کلاس های به شدت نامتوازن (Imbalanced Data) است و یافتن داده های برچسب دار برای ناهنجاری ها دشوار است، از رویکردهای یادگیری بدون نظارت (Unsupervised Learning) استفاده شد.

الف) مدل جنگل انزوا (Isolation Forest):

این الگوریتم مبتنی بر درخت های تصمیم، داده های پرت را نه از طریق پروفایل سازی داده های نرمال، بلکه از طریق «منزوی کردن» صریح ناهنجاری ها شناسایی می کند. امتیاز ناهنجاری برای داده xxx با توجه به طول مسیر h(x)h(x)h(x) در درخت ها به شکل زیر محاسبه می شود:

s(x,n)=2−E(h(x))c(n) s(x, n) = 2^{-\frac{E(h(x))}{c(n)}} s(x,n)=2−c(n)E(h(x))

که در آن c(n)c(n)c(n) میانگین طول مسیر ناموفق جستجو است. اگر sss نزدیک به ۱ باشد، داده یک ناهنجاری محسوب می شود.

ب) مدل رمزگذار خودکار عمیق (Deep Autoencoder):

یک شبکه عصبی با معماری گلوگاه (Bottleneck) شامل یک بخش Encoder و یک بخش Decoder طراحی شد. شبکه سعی می کند بردار ورودی XXX را فشرده کرده و سپس آن را بازسازی کند (X^\hat{X}X^). تابع زیان (Loss Function) بر اساس خطای میانگین مربعات (MSE) تعریف شد:

L(X,X^)=1N∑i=1N(Xi−X^i)2 L(X, \hat{X}) = \frac{1}{N} \sum_{i=1}^{N} (X_i - \hat{X}_i)^2 L(X,X^)=N1i=1∑N(Xi−X^i)2

داده های نرمال به خوبی بازسازی می شوند (خطای کم)، اما الگوهای نادرست که شبکه در فاز آموزش کمتر با آن ها مواجه شده، خطای بازسازی بسیار بالایی خواهند داشت. داده هایی که خطای بازسازی آن ها از یک حد آستانه (Threshold) θ\thetaθ بیشتر باشد، به عنوان ناهنجاری علامت گذاری می شوند.

۴. یافته ها و تحلیل

برای ارزیابی مدل ها، حدود ۲ هزار رکورد توسط کارشناسان انسانی به صورت دستی برچسب گذاری شد (نرمال/ناهنجار) تا صرفا در مرحله تست و محاسبه معیارهای ارزیابی مورد استفاده قرار گیرد. معیارهای دقت (Precision)، فراخوانی (Recall) و امتیاز اف-یک (F1−ScoreF_1-ScoreF1−Score) طبق فرمول زیر محاسبه شدند:

F1=2×Precision×RecallPrecision+Recall F_1 = 2 \times \frac{Precision \times Recall}{Precision + Recall} F1=2×Precision+RecallPrecision×Recall

تحلیل علمی نتایج:

مقایسه عملکرد دو مدل پیشنهادی در جدول زیر خلاصه شده است:

مدل پیشنهادی تکنیک استخراج ویژگی Precision Recall F1−ScoreF_1-ScoreF1−Score Isolation Forest TF-IDF ۰.۶۸ ۰.۷۱ ۰.۶۹ Isolation Forest ParsBERT Embeddings ۰.۷۹ ۰.۸۲ ۰.۸۰ Deep Autoencoder ParsBERT Embeddings ۰.۹۱ ۰.۸۷ ۰.۸۹

همان طور که در نتایج مشخص است، مدل رمزگذار خودکار همراه با تعبیه های متنی ParsBERT بهترین عملکرد را ثبت کرده است. تحلیل خروجی های مدل نشان می دهد که الگوریتم توانسته است سه دسته اصلی از ناهنجاری ها را کشف کند:

۱. ناهنجاری های آماری و نحوی: متونی که شامل کلمات بی معنی، تکرار یک کلمه برای بیش از ۱۰ بار متوالی (سئوی مخرب)، یا دارای علائم نگارشی غیرعادی بودند.

۲. ناهنجاری های معنایی (Contextual Outliers): مواردی که کلمات کلیدی موجود در توضیحات هیچ تناسب معنایی با بردار عنوان محصول نداشتند (مثلا محصول قاب گوشی است، اما در توضیحات از کلمات مرتبط با قطعات خودرو برای جذب کلیک استفاده شده است).

۳. الگوهای ماشینی: متونی که توسط ربات های تولید محتوای ابتدایی و با ترجمه ماشینی ناقص از سایت های خارجی کپی شده بودند و فاقد انسجام گرامری (Coherence) زبان فارسی بودند.

کاربرد مدل پیشنهادی:

این سیستم می تواند به عنوان یک ماژول “دروازه بان” (Gatekeeper) در سیستم های مدیریت محتوای (CMS) فروشگاه ها پیاده سازی شود. به محض اینکه فروشنده متنی را ذخیره می کند، سیستم در کسری از ثانیه امتیاز ناهنجاری آن را محاسبه کرده و در صورت تجاوز از حد آستانه، متن را برای بررسی توسط عامل انسانی به صف انتظار (Pending) منتقل می کند یا اخطاری برای اصلاح به فروشنده نمایش می دهد.

۵. بحث

تفسیر نتایج:

برتری چشمگیر مدل Deep Autoencoder نسبت به Isolation Forest در متون پیچیده، ریشه در توانایی شبکه های عصبی عمیق در استخراج روابط غیرخطی (Non-linear Relationships) بین کلمات دارد. الگوریتم های مبتنی بر درخت در فضاهای برداری متراکم و با ابعاد بسیار بالا (۷۶۸ بعد در ParsBERT) دچار پدیده نفرین ابعاد (Curse of Dimensionality) می شوند، در حالی که معماری گلوگاه رمزگذار خودکار، ذاتا برای کاهش ابعاد و استخراج ویژگی های پنهان طراحی شده است.

مقایسه با مطالعات پیشین:

نتایج این تحقیق هم راستا با یافته های سینگ و همکاران (۲۰۲۳) بر اهمیت استفاده از مدل های مبتنی بر ترانسفورمر برای درک زمینه در تجارت الکترونیک تاکید دارد. همچنین در مقایسه با مطالعه وانگ و همکاران (۲۰۲۱) که نیازمند تعریف دستی صدها قانون ساختاری بود، چارچوب پیشنهادی ما به دلیل ماهیت بدون نظارت، انعطاف پذیری بسیار بالاتری در مواجهه با ترفندهای جدید فروشندگان متخلف از خود نشان می دهد. با این حال، یکی از چالش های مشاهده شده در طول تحلیل نتایج، دشواری سیستم در تشخیص ناهنجاری هایی بود که در آن ها فروشنده از زبان طعنه آمیز (Sarcasm) یا اصطلاحات بسیار تخصصی یک صنف خاص استفاده کرده بود که در دادگان پیش آموزش ParsBERT وجود نداشتند.

۶. نتیجه گیری و پیشنهادها

جمع بندی یافته ها:

حفظ یکپارچگی و صحت اطلاعات محصولات در پلتفرم های چندفروشنده ای، تضمین کننده بقای کسب وکار در محیط رقابتی تجارت الکترونیک است. این مقاله یک رویکرد نوین و مبتنی بر یادگیری ماشین بدون نظارت را برای شناسایی متون بی کیفیت و مخرب در توضیحات محصول ارائه داد. با ترکیب قدرت پردازش زبان طبیعی توسط مدل های زبانی عمیق (ParsBERT) و رویکردهای بازسازی خطا در شبکه های عصبی (Autoencoders)، سیستمی طراحی شد که توانست با دقت ۸۹ درصد، الگوهای نادرست را در متون فارسی شناسایی کند.

کاربردهای عملی:

مدیران پلتفرم های تجارت الکترونیک (مانند دیجی کالا، باسلام و…) می توانند از معماری پیشنهادی این پژوهش به منظور خودکارسازی فرآیند تایید محتوا استفاده نمایند. این امر نه تنها باعث کاهش هزینه های عملیاتی بخش پشتیبانی می شود، بلکه با ارائه اطلاعات دقیق تر به مشتری، نرخ نارضایتی و مرجوعی کالا را به حداقل می رساند و موتور جستجوی داخلی سایت را از نتایج نامرتبط پاکسازی می کند.

پیشنهاد برای پژوهش های آینده:

با توجه به پتانسیل بالای این حوزه، پیشنهادات زیر برای پژوهشگران علاقه مند ارائه می گردد:

۱. رویکردهای چندرسانه ای (Multimodal): توسعه مدل هایی که به طور همزمان تصاویر محصول و متن توضیحات را تحلیل کرده و هرگونه تناقض بین تصویر و متن را به عنوان ناهنجاری کشف کنند.

۲. استفاده از مدل های زبانی بزرگ (LLMs): بهره گیری از مدل هایی با معماری GPT (نظیر LLaMA یا نسخه های بومی شده) نه تنها برای تشخیص ناهنجاری، بلکه برای “اصلاح خودکار” (Generative Correction) و پیشنهاد متن استاندارد به فروشندگان.

۳. تحلیل گراف دانش (Knowledge Graph): استفاده از گراف های دانش محصولات برای بررسی صحت ادعاهای فنی مطرح شده در توضیحات (مانند تناسب ولتاژ یک قطعه الکترونیکی با دستگاه های ذکر شده در متن).

۷. منابع (References)

Chen, Y., & Zhang, L. (2019). Anomaly detection in unstructured textual data using deep autoencoders. Journal of Big Data Analytics, 14(3), 215-230. https://doi.org/10.1007/s10115-018-0000-x
Garcia, M., & Lee, H. (2020). High-dimensional outlier detection using Isolation Forest for e-commerce traffic. IEEE Transactions on Knowledge and Data Engineering, 32(8), 1540-1552.
Singh, A., Kumar, R., & Sharma, P. (2023). Contextual representation learning with BERT for automated e-commerce product categorization. Expert Systems with Applications, 214, 119098.
Wang, J., Liu, Q., & Zheng, Y. (2021). Rule-based and CNN-driven approaches for data quality assessment in e-commerce catalogs. Information Sciences, 546, 788-802.
Zhao, H., & Yin, X. (2022). Deep learning techniques for anomaly detection in text: A comprehensive survey. Artificial Intelligence Review, 55(1), 345-389.
حسینی، م.، و رحیمی، ع. (۲۰۲۲). رویکردی مبتنی بر یادگیری ماشین برای تشخیص نظرات هرزنامه در فروشگاه های اینترنتی ایران. فصلنامه علمی پژوهشی مدیریت فناوری اطلاعات، ۱۴(۲)، ۱۱۲-۱۳۰.
رادفر، ح.، و کریمی، س. (۲۰۲۱). کاربرد پردازش زبان طبیعی در استخراج ویژگی های محصول از متون غیرساخت یافته. مجله مهندسی کامپیوتر و هوش مصنوعی، ۹(۴)، ۴۵-۶۲.
محمدی، ر.، و علوی، پ. (۲۰۲۳). مقایسه عملکرد مدل های زبانی ترانسفورمر در درک معنایی متون تجاری زبان فارسی. دومین کنفرانس بین المللی فناوری های نوین در تجارت الکترونیک (نمایه شده در CIVILICA). تهران، ایران.
زارع، ف.، تهرانی، ا. (۲۰۲۰). چالش های تضمین کیفیت داده ها در مدل های کسب وکار بازارگاه (Marketplace). پژوهش نامه مدیریت بازرگانی، ۱۸(۱)، ۲۲-۴۰.
صادقی، ب. (۲۰۱۹). تحلیل کلان داده ها و کشف ناهنجاری با پایتون. انتشارات دانشگاهی، تهران.

تجارت الکترونیک یادگیری ماشین استودیوی هوش مصنوعی رهانیک مهندس رها حسن آبادی مدل‌های زبانی عمیق

یادداشت قبلی

طراحی سیستم هوشمند مبتنی بر یادگیری عمیق چندوجهی جهت مطابقت تصویر و متن محصولات با هدف تشخیص و پیشگیری از تقلب فروشندگان در تجارت الکترونیک