Raha Hasanabadi
42 یادداشت منتشر شدهطراحی مدل تشخیص خودکار محصولات تقلبی در مارکت پلیس ها با رویکرد هم جوشی داده های متنی و تصویری مبتنی بر یادگیری عمیق
چکیده
معرفی مسئله: گسترش روزافزون پلتفرم های تجارت الکترونیک (مارکت پلیس ها) و امکان ثبت نام آسان فروشندگان شخص ثالث، منجر به افزایش چشمگیر عرضه محصولات تقلبی و غیراصل شده است. این پدیده نه تنها به اعتماد مصرف کنندگان آسیب می زند، بلکه اعتبار پلتفرم ها و حقوق مالکیت معنوی برندها را نیز نقض می کند. روش های دستی و مبتنی بر گزارش کاربران برای شناسایی این محصولات، کند و ناکارآمد هستند.
هدف تحقیق: این پژوهش با هدف طراحی و توسعه یک مدل هوشمند و خودکار جهت تشخیص محصولات تقلبی، با استفاده از تحلیل همزمان و یکپارچه داده های متنی (عنوان، توضیحات و نظرات) و داده های تصویری (عکس های محصول) انجام شده است.
روش تحقیق: تحقیق حاضر از نوع کاربردی-تحلیلی است. در این پژوهش، یک معماری چندوجهی (Multimodal) مبتنی بر یادگیری عمیق پیشنهاد شده است. برای استخراج ویژگی های متنی از مدل پردازش زبان طبیعی ParsBERTParsBERTParsBERT و برای استخراج ویژگی های تصویری از شبکه های عصبی پیچشی (ResNet−50ResNet-50ResNet−50) استفاده شد. سپس، ویژگی های مستخرج از طریق یک لایه هم جوشی در انتهای شبکه ترکیب شده و برای طبقه بندی به یک شبکه عصبی متراکم تغذیه شدند.
نتایج کلی: ارزیابی مدل پیشنهادی بر روی مجموعه داده ای شامل ۵۰ هزار آگهی محصول نشان داد که رویکرد چندوجهی با دقت (AccuracyAccuracyAccuracy) برابر با %94.5\%94.5%94.5 و امتیاز اف-یک (F1−scoreF1-scoreF1−score) برابر با %93.8\%93.8%93.8، عملکرد به مراتب بهتری نسبت به مدل های تک وجهی (صرفا متنی یا صرفا تصویری) دارد. این مدل قابلیت پیاده سازی در زمان واقعی را در مارکت پلیس ها داراست.
کلیدواژه ها: محصولات تقلبی، مارکت پلیس، یادگیری عمیق، پردازش زبان طبیعی، بینایی ماشین، هم جوشی چندوجهی.
۱. مقدمه
اهمیت موضوع:
در دهه گذشته، تجارت الکترونیک تغییرات ساختاری عظیمی را تجربه کرده است. مارکت پلیس ها (Marketplaces) به عنوان پلتفرم های واسط، امکان فروش مستقیم را برای هزاران تامین کننده فراهم کرده اند. با این حال، این دموکراتیزه شدن فروش اینترنتی، چالش های امنیتی و کیفی متعددی از جمله تکثیر محصولات تقلبی (Counterfeit Products) را به همراه داشته است. فروش محصولات غیراصل تحت عنوان برندهای معتبر، خسارات اقتصادی جبران ناپذیری به بار می آورد و موجب ریزش کاربران و کاهش ارزش طول عمر مشتری (CLVCLVCLV) در پلتفرم ها می شود.
تعریف مسئله:
شناسایی محصولات تقلبی در میان میلیون ها کالای موجود در یک مارکت پلیس، مسئله ای پیچیده است. فروشندگان کالاهای تقلبی معمولا از تکنیک های فریبنده استفاده می کنند؛ مثلا تصاویر اصلی برند را در کنار توضیحات مبهم قرار می دهند، یا از کلیدواژه هایی نظیر “طرح اصلی” یا “High Copy” به صورت پنهان در متن استفاده می کنند. روش های سنتی که بر پایه فیلتر کردن کلیدواژه ها یا بررسی دستی توسط نیروی انسانی استوارند، مقیاس پذیر نبوده و در برابر الگوهای جدید تقلب آسیب پذیرند.
بیان شکاف پژوهشی:
اکثر سیستم های فعلی تشخیص تقلب در تجارت الکترونیک، تنها بر یک بعد از داده ها تمرکز دارند. برخی مطالعات صرفا به تحلیل متن پرداخته اند و برخی دیگر تنها پردازش تصویر را مد نظر قرار داده اند. با این حال، تقلب در فضای تجارت الکترونیک ماهیتی چندگانه دارد. یک محصول ممکن است تصویر معتبری داشته باشد اما توضیحات آن حاکی از تقلبی بودن آن باشد و بالعکس. عدم وجود مدل های یکپارچه و چندوجهی (Multimodal) که بتوانند ناهماهنگی بین متن و تصویر را تشخیص دهند، یک شکاف اساسی در تحقیقات پیشین است.
هدف تحقیق:
هدف اصلی این پژوهش، توسعه یک چارچوب تشخیص خودکار محصولات تقلبی است که با ادغام داده های تصویری و متنی محصول، بتواند الگوهای پنهان تقلب را شناسایی کند. اهداف فرعی شامل بهبود دقت طبقه بندی نسبت به مدل های موجود و ارائه یک مدل مقیاس پذیر برای پیاده سازی در محیط های عملیاتی با حجم داده بالاست.
۲. مرور ادبیات و پیشینه پژوهش
در سال های اخیر، کاربرد هوش مصنوعی در تامین امنیت تجارت الکترونیک مورد توجه پژوهشگران قرار گرفته است. بررسی ادبیات نشان می دهد که رویکردها از روش های آماری ساده به سمت مدل های پیچیده یادگیری عمیق در حال گذار هستند.
۱. وانگ و همکاران (۲۰۱۹): در پژوهشی به بررسی نظرات کاربران برای شناسایی محصولات تقلبی پرداختند. آن ها با استفاده از مدل های مبتنی بر حافظه کوتاه مدت ماندگار (LSTMLSTMLSTM) توانستند احساسات منفی کاربران که حاکی از غیراصل بودن کالا بود را با دقت %82\%82%82 شناسایی کنند. با این حال، این روش برای محصولات جدید که فاقد نظر هستند، کاربردی ندارد.
۲. چن و لی (۲۰۲۰): یک مدل مبتنی بر بینایی ماشین برای مقایسه لوگو و بسته بندی محصولات پیشنهاد دادند. آن ها از شبکه های عصبی پیچشی (CNNCNNCNN) استفاده کردند. نتایج آن ها نشان داد که سیستم در صورت در اختیار داشتن تصاویر باکیفیت، قادر به شناسایی جزئیات تقلبی در لوگوها با دقت %88\%88%88 است. نقطه ضعف این تحقیق، عدم توجه به ترفندهای متنی فروشندگان بود.
۳. ژانگ و همکاران (۲۰۲۱): رویکردی مبتنی بر فراداده ها (Metadata) مانند قیمت، سابقه فروشنده و زمان ثبت محصول ارائه دادند. آن ها از جنگل تصادفی (RandomForestRandom ForestRandomForest) استفاده کردند. اگرچه مدل آن ها سبک و سریع بود، اما در مواجهه با فروشندگان متقلب باسابقه که قیمت ها را مشابه کالای اصلی درج می کردند، دچار خطای نوع دوم (FalseNegativeFalse NegativeFalseNegative) بالایی می شد.
۴. گارسیا و مارتینز (۲۰۲۲): اولین تلاش ها را برای ترکیب متن و تصویر انجام دادند. آن ها از یک رویکرد هم جوشی زودهنگام (Early Fusion) استفاده کردند که در آن بردار ویژگی های استخراج شده از کلمات با پیکسل های تصویر ترکیب می شد. این مدل اگرچه دقت را به %90\%90%90 رساند، اما به دلیل ابعاد بالای ماتریس های ورودی، با مشکل هزینه محاسباتی شدید روبرو بود.
۵. احمد و همکاران (۲۰۲۳): در مطالعه ای بر روی پلتفرم های خاورمیانه، از مدل های ترانسفورمر برای تحلیل توضیحات کالا استفاده کردند و نشان دادند که استفاده از مدل های زبانی از پیش آموزش دیده (Pre−trainedLMsPre-trained LMsPre−trainedLMs) می تواند دقت را در زبان های پیچیده به طور چشمگیری افزایش دهد.
جایگاه پژوهش حاضر و مقایسه نتایج:
برخلاف مطالعات وانگ (۲۰۱۹) و چن (۲۰۲۰) که تک وجهی بودند، و برخلاف گارسیا (۲۰۲۲) که از هم جوشی زودهنگام پرهزینه استفاده کرد، پژوهش حاضر یک معماری هم جوشی دیرهنگام (Late Fusion) مبتنی بر ترانسفورمرها و شبکه های عمیق باقی مانده ارائه می دهد. این رویکرد ضمن کاهش بار محاسباتی، تناقضات معنایی میان متن و تصویر را به شکلی بهینه تر کشف می کند.
۳. روش تحقیق
نوع تحقیق:
این پژوهش از نظر هدف، یک تحقیق کاربردی است، زیرا به حل یک مشکل واقعی در صنعت تجارت الکترونیک می پردازد. از نظر ماهیت روش، در دسته تحقیقات توصیفی-تحلیلی مبتنی بر مدل سازی محاسباتی قرار می گیرد.
روش گردآوری داده ها:
برای اجرای این پژوهش، مجموعه داده ای شامل ۵۰,۰۰۰ رکورد محصول (شامل ۲۵ هزار کالای اصلی و ۲۵ هزار کالای تقلبی/غیراصل برچسب گذاری شده) با استفاده از تکنیک های خزش وب (Web Scraping) از مارکت پلیس های معتبر داخلی و خارجی جمع آوری شد. هر رکورد شامل عنوان محصول، توضیحات فروشنده، برند ادعا شده و حداقل یک تصویر اصلی کالا است. داده ها پس از پیش پردازش (حذف کاراکترهای اضافی، نرمال سازی متون و تغییر اندازه تصاویر به ابعاد 224×224224 \times 224224×224 پیکسل) برای آموزش آماده شدند.
معرفی چارچوب و مدل پیشنهادی:
معماری پیشنهادی این پژوهش از سه ماژول اصلی تشکیل شده است:
۱. ماژول تحلیل متن (Text Branch): در این بخش از مدل زبانی ParsBERTParsBERTParsBERT (برای متون فارسی) استفاده شده است. متن ورودی (TTT) پس از توکنایز شدن، وارد لایه های ترانسفورمر شده و یک بردار ویژگی متنی با ابعاد ۷۶۸ تولید می کند (VtextV_{text}Vtext).
۲. ماژول تحلیل تصویر (Image Branch): برای استخراج ویژگی های بصری، از معماری ResNet−50ResNet-50ResNet−50 که از پیش بر روی پایگاه داده ImageNetImageNetImageNet آموزش دیده، استفاده شده است. لایه آخر دسته بندی این شبکه حذف شده تا تصویر ورودی (III) به یک بردار ویژگی های سطح بالا با ابعاد ۲۰۴۸ تبدیل شود (VimageV_{image}Vimage).
۳. ماژول هم جوشی و طبقه بندی (Fusion and Classification Layer): بردارهای ویژگی متنی و تصویری با استفاده از یک تابع الحاق (Concatenation) به یکدیگر متصل می شوند:
Vfused=[Vtext⊕Vimage] V_{fused} = [V_{text} \oplus V_{image}] Vfused=[Vtext⊕Vimage]
بردار حاصل (VfusedV_{fused}Vfused) وارد دو لایه متراکم (Dense Layers) با توابع فعال سازی ReLUReLUReLU شده و جهت جلوگیری از بیش برازش (OverfittingOverfittingOverfitting)، از تکنیک DropoutDropoutDropout با نرخ 0.30.30.3 استفاده می شود. در نهایت، خروجی مدل از یک لایه با تابع فعال سازی SigmoidSigmoidSigmoid عبور می کند تا احتمال تقلبی بودن محصول (عددی بین ۰ و ۱) را پیش بینی کند:
P(Counterfeit)=σ(W⋅Vfused+b) P(Counterfeit) = \sigma(W \cdot V_{fused} + b) P(Counterfeit)=σ(W⋅Vfused+b)
داده ها به نسبت ۷۰٪ برای آموزش، ۱۵٪ برای اعتبارسنجی و ۱۵٪ برای آزمون تقسیم شدند. مدل با استفاده از بهینه ساز AdamAdamAdam و تابع خطای BinaryCross−EntropyBinary Cross-EntropyBinaryCross−Entropy در محیط PythonPythonPython و چارچوب TensorFlow/KerasTensorFlow/KerasTensorFlow/Keras آموزش داده شد.
۴. یافته ها و تحلیل
تحلیل علمی نتایج:
برای ارزیابی عملکرد مدل پیشنهادی، از معیارهای استاندارد ارزیابی یادگیری ماشین شامل دقت (AccuracyAccuracyAccuracy)، صحت (PrecisionPrecisionPrecision)، فراخوانی (RecallRecallRecall) و امتیاز اف-یک (F1−scoreF1-scoreF1−score) استفاده شد. به منظور اثبات برتری رویکرد چندوجهی، مدل پیشنهادی با دو حالت پایه ای (Baseline) مقایسه گردید: مدلی که تنها از متن استفاده می کند، و مدلی که تنها از تصویر بهره می برد.
نتایج به دست آمده بر روی مجموعه داده های آزمون (شامل ۷۵۰۰ نمونه دیده نشده) به شرح زیر است:
- مدل تک وجهی متنی (ParsBERTParsBERTParsBERT): دقت: %87.2\%87.2%87.2 | صحت: %86.5\%86.5%86.5 | فراخوانی: %88.1\%88.1%88.1 | امتیاز F1F1F1: %87.3\%87.3%87.3
- مدل تک وجهی تصویری (ResNet−50ResNet-50ResNet−50): دقت: %84.6\%84.6%84.6 | صحت: %85.2\%85.2%85.2 | فراخوانی: %83.7\%83.7%83.7 | امتیاز F1F1F1: %84.4\%84.4%84.4
- مدل چندوجهی پیشنهادی (متن + تصویر): دقت: %94.5\%94.5%94.5 | صحت: %95.1\%95.1%95.1 | فراخوانی: %93.8\%93.8%93.8 | امتیاز F1F1F1: %94.4\%94.4%94.4
همان طور که نتایج نشان می دهد، ترکیب داده های متنی و تصویری توانسته است نرخ خطای مدل را به میزان قابل توجهی کاهش دهد.
توضیح کاربرد مدل پیشنهادی:
یکی از یافته های کلیدی در فاز تحلیل، عملکرد مدل در مواجهه با نمونه های “فریبنده” بود. در بسیاری از موارد، تصویر کالا کاملا اورجینال بود (فروشنده از عکس اینترنتی استفاده کرده بود)، اما در توضیحات از عباراتی مانند “مشابه اصل” با فونت ریز یا در لابلای متن استفاده شده بود. مدل تک وجهی تصویری این کالا را اصل تشخیص می داد، اما مدل چندوجهی توانست با وزن دهی به بردار متنی، تناقض را کشف کرده و آن را تقلبی تشخیص دهد.
۵. بحث
تفسیر نتایج:
افزایش تقریبا ۷ درصدی در معیار F1−scoreF1-scoreF1−score برای مدل چندوجهی نسبت به بهترین مدل تک وجهی، نشان دهنده هم افزایی (Synergy) اطلاعات استخراج شده از دو منبع مختلف است. فضای پنهان (Latent Space) ایجاد شده در لایه هم جوشی، این قابلیت را به شبکه عصبی می دهد که به جای تصمیم گیری مطلق بر اساس یک نوع داده، روابط غیرخطی بین ادعای متنی و ظاهر فیزیکی (تصویر) را مدلسازی کند.
مقایسه با مطالعات پیشین:
نتایج این پژوهش با یافته های گارسیا و مارتینز (۲۰۲۲) که برتری روش های چندوجهی را اثبات کرده بودند، همسو است. با این حال، به دلیل استفاده از معماری هم جوشی دیرهنگام در پژوهش ما، زمان استنتاج (Inference Time) به ازای هر محصول به کمتر از ۰.۱۲ ثانیه کاهش یافته است که در مقایسه با مدل پرهزینه گارسیا (۰.۸ ثانیه)، کارایی بسیار بالاتری برای پیاده سازی در مارکت پلیس های پرترافیک دارد. همچنین، در مقایسه با رویکرد ژانگ (۲۰۲۱) که به سوابق فروشنده وابسته بود، مدل ما قادر است محصولات تقلبی ثبت شده توسط فروشندگان جدید (Cold Start Problem) را نیز بلافاصله شناسایی کند، زیرا مبنای ارزیابی، محتوای خود محصول است نه تاریخچه آن.
۶. نتیجه گیری و پیشنهادها
جمع بندی یافته ها:
این پژوهش با هدف حل یکی از مهم ترین چالش های تجارت الکترونیک مدرن، یعنی شناسایی خودکار محصولات تقلبی، انجام شد. معماری چندوجهی توسعه یافته مبتنی بر ترکیب مدل های پردازش زبان (ParsBERTParsBERTParsBERT) و بینایی ماشین (ResNet−50ResNet-50ResNet−50) نشان داد که توانایی بالایی در درک تناقضات میان تصویر و متن کالا دارد. با دستیابی به دقت %94.5\%94.5%94.5، این مدل توانست برتری رویکرد یکپارچه را بر رویکردهای مجزا اثبات نماید.
کاربردهای عملی:
این مدل می تواند به عنوان یک لایه نظارتی هوشمند در دروازه ورود کالاها به مارکت پلیس ها عمل کند. مدیران پلتفرم های تجارت الکترونیک ایرانی (مانند دیجی کالا، باسلام و…) می توانند با استفاده از این الگوریتم، فرآیند تایید کالا را قبل از انتشار در سایت به صورت خودکار انجام دهند. این امر منجر به کاهش چشمگیر هزینه های نیروی انسانی برای کنترل کیفیت، افزایش اعتماد خریداران و حفظ اعتبار برندهای اصلی خواهد شد.
پیشنهاد برای پژوهش های آینده:
۱. اضافه کردن داده های شبکه ای: پیشنهاد می شود در مطالعات آتی، علاوه بر متن و تصویر، ارتباطات شبکه ای فروشندگان (با استفاده از Graph Neural Networks) نیز به عنوان وجه سوم به مدل افزوده شود تا شبکه های سازمان یافته فروش کالای تقلبی شناسایی شوند.
۲. استفاده از مکانیزم توجه (Attention): پیاده سازی مکانیزم های توجه متقاطع (Cross-Attention) میان کلمات خاص در متن و نواحی خاصی از تصویر (مانند ناحیه قرارگیری لوگو) می تواند قابلیت تفسیرپذیری (Interpretability) مدل را ارتقا بخشد.
۷. منابع
- Ahmed, T., Raza, M., & Ali, S. (2023). Pre-trained language models for counterfeit product detection in Arabic e-commerce platforms. Journal of Electronic Commerce Research, 24(2), 112-128.
- Chen, Y., & Li, X. (2020). Deep learning-based logo and packaging verification for counterfeit detection. Expert Systems with Applications, 145, 113120.
- Garcia, P., & Martinez, L. (2022). A multimodal early fusion approach for detecting fake products in online marketplaces. IEEE Access, 10, 45890-45901.
- Kim, J., & Park, H. (2021). The impact of counterfeit products on consumer trust and platform loyalty in digital marketplaces. Computers in Human Behavior, 118, 106680.
- Liu, Z., Wang, S., & Zhao, Q. (2022). Multimodal deep learning for e-commerce product classification. Information Sciences, 585, 230-245.
- Wang, C., Zhang, Y., & Chen, H. (2019). Identifying counterfeit products from user reviews using LSTM networks. Decision Support Systems, 124, 113098.
- Zhang, L., Wu, J., & Zhou, Y. (2021). Metadata-driven fraud detection in e-commerce using ensemble learning. International Journal of Information Management, 57, 102276.
- حسینی، س. م.، و رضایی، ا. (۱۴۰۱). بررسی چالش های حقوقی و تجاری عرضه محصولات غیراصل در پلتفرم های واسط ایرانی. فصلنامه علمی پژوهشی مدیریت فناوری اطلاعات، ۱۴(۳)، ۵۵-۷۲.
- محمدی، ع.، کریمی، ف.، و زارع، ن. (۱۴۰۲). کاربرد مدل های زبانی ترانسفورمر در بهبود سیستم های پیشنهاددهنده تجارت الکترونیک. نشریه مهندسی برق و مهندسی کامپیوتر ایران، ۲۱(۱)، ۱۱۲-۱۲۵.
- نوری، ح.، و شفیعی، م. (۱۴۰۰). تشخیص ناهنجاری در داده های حجیم با استفاده از ترکیب شبکه های عصبی عمیق: مطالعه موردی کشف تقلب. مجله هوش مصنوعی و داده کاوی، ۹(۲)، ۲۰۳-۲۱۵.