Raha Hasanabadi

ارائه مدل تحلیل شباهت معنایی برای شناسایی محصولات مشابه در پایگاه داده فروشگاهی بر مبنای یادگیری عمیق و مدل های زبانی ترانسفورمر

4 تیر 1405 - خواندن 13 دقیقه - 20 بازدید

چکیده

گسترش روزافزون تجارت الکترونیک و افزایش حجم داده های فروشگاهی، چالش های متعددی را در زمینه مدیریت کاتالوگ محصولات و بهبود تجربه کاربری ایجاد کرده است. یکی از مسائل اساسی، وجود محصولات مشابه یا تکراری با نام گذاری ها و توضیحات متفاوت در پایگاه های داده است که روش های سنتی مبتنی بر تطابق کلیدواژه ای قادر به شناسایی دقیق آن ها نیستند. هدف این تحقیق، ارائه یک مدل تحلیل شباهت معنایی مبتنی بر معماری شبکه های عصبی سیامی (Siamese Networks) و مدل های زبانی از پیش آموزش دیده (مانند ParsBERT) برای شناسایی دقیق محصولات مشابه در متون فارسی است. در این پژوهش از روش تحقیق کاربردی-تحلیلی استفاده شده و داده های مورد نیاز از طریق استخراج اطلاعات ۵۰ هزار محصول از فروشگاه های اینترنتی معتبر ایرانی گردآوری شده است. مدل پیشنهادی با تبدیل عناوین و ویژگی های محصولات به بردارهای متراکم معنایی و محاسبه فاصله کسینوسی، شباهت آن ها را ارزیابی می کند. نتایج نشان می دهد که مدل پیشنهادی با دست یابی به امتیاز F1 برابر با 0.880.880.88، عملکرد بسیار بهتری نسبت به روش های پایه مانند TF-IDF و Word2Vec داشته و می تواند به طور موثری در سیستم های توصیه گر و پاک سازی داده های فروشگاهی مورد استفاده قرار گیرد.

کلیدواژه ها: شباهت معنایی، تجارت الکترونیک، پردازش زبان طبیعی (NLP)، شناسایی محصولات مشابه، مدل های ترانسفورمر، یادگیری عمیق.

۱. مقدمه

اهمیت موضوع: با رشد فزاینده پلتفرم های تجارت الکترونیک، پایگاه های داده فروشگاهی روزانه با حجم عظیمی از داده های مربوط به محصولات جدید به روزرسانی می شوند. در بسیاری از موارد، تامین کنندگان مختلف یک محصول واحد را با عناوین، ویژگی ها و توضیحات متفاوتی در سیستم ثبت می کنند. این تنوع در نام گذاری، منجر به ایجاد رکوردهای تکراری یا بسیار مشابه می شود که نه تنها پایگاه داده را حجیم و مدیریت آن را دشوار می سازد، بلکه باعث سردرگمی مشتریان و کاهش کارایی سیستم های جستجو و توصیه گر می گردد.

تعریف مسئله: مسئله تطابق محصولات (Product Matching) یا شناسایی موجودیت های مشابه، به فرآیند یافتن رکوردهایی در پایگاه داده اشاره دارد که به یک محصول فیزیکی واحد دلالت دارند، اما از نظر ساختار واژگانی با یکدیگر متفاوت هستند. به عنوان مثال، دو عنوان «گوشی موبایل سامسونگ گلکسی S23 اولترا ظرفیت 256 گیگابایت» و «Smartphone Samsung S23 Ultra 5G - 256GB» به یک محصول اشاره دارند، اما از نظر متنی کاملا متفاوت اند.

بیان شکاف پژوهشی: روش های سنتی بازیابی اطلاعات عمدتا بر تکنیک های تطابق دقیق رشته ها یا فاصله های ویرایشی (مانند Levenshtein) و یا مدل های مبتنی بر فراوانی کلمات (مانند TF-IDF) استوار بوده اند. این روش ها درک معنایی از کلمات ندارند و در مواجهه با مترادف ها، کلمات اختصاری و خطاهای املایی به شدت دچار افت عملکرد می شوند. اگرچه در سال های اخیر استفاده از مدل های زبانی در زبان انگلیسی توسعه یافته است، اما توسعه مدل های بومی سازی شده و تنظیم دقیق (Fine-tuning) آن ها برای دایره واژگان خاص تجارت الکترونیک در زبان فارسی همچنان یک شکاف پژوهشی جدی است.

هدف تحقیق: هدف اصلی این پژوهش، طراحی، پیاده سازی و ارزیابی یک مدل پردازش زبان طبیعی مبتنی بر یادگیری عمیق است که بتواند با تحلیل شباهت معنایی متون (Semantic Textual Similarity)، محصولات مشابه را در یک پایگاه داده فروشگاهی فارسی با دقت بالا شناسایی کند.

۲. مرور ادبیات و پیشینه پژوهش

در سال های اخیر، تحقیقات متعددی پیرامون تطابق محصولات و تحلیل شباهت متنی انجام شده است. در ادامه به بررسی ۵ تحقیق معتبر و اخیر در این حوزه می پردازیم:

۱. وانگ و همکاران (۲۰۲۰): در پژوهشی به استفاده از مدل BERT برای تطابق موجودیت ها در پایگاه های داده ناهمگن پرداختند. نتایج آن ها نشان داد که استفاده از توجه متقابل (Cross-attention) در ترانسفورمرها می تواند دقت شناسایی را تا ۱۵ درصد نسبت به مدل های RNN افزایش دهد.

۲. لی و همکاران (۲۰۲۱): مدلی مبتنی بر شبکه های گراف کانولوشنال (GCN) و شبکه های سیامی برای شناسایی محصولات در تجارت الکترونیک ارائه دادند. آن ها علاوه بر متن، از ساختار درختی دسته بندی محصولات نیز به عنوان ویژگی ورودی استفاده کردند.

۳. حسینی و رضایی (۲۰۲۲): در مطالعه ای به بررسی عملکرد مدل های مختلف Word Embedding (مانند FastText و GloVe) در دسته بندی نظرات محصولات فارسی پرداختند. آن ها نشان دادند که FastText به دلیل استفاده از زیرکلمه ها (Sub-words) در مواجهه با کلمات خارج از دایره واژگان (OOV) در زبان فارسی عملکرد بهتری دارد.

۴. پهلوان و همکاران (۲۰۲۳): یک سیستم توصیه گر برای فروشگاه های اینترنتی بر پایه مدل زبانی ParsBERT ارائه کردند. پژوهش آن ها ثابت کرد که درک بافتار کلمات (Contextualized Embeddings) تاثیر بسزایی در یافتن محصولات جایگزین دارد.

۵. ژانگ و چن (۲۰۲۳): در مقاله ای با عنوان «تطابق محصولات در مقیاس بزرگ با استفاده از یادگیری تقابلی (Contrastive Learning)»، نشان دادند که استفاده از تابع زیان سه گانه (Triplet Loss) در آموزش شبکه های متمرکز بر جمله (Sentence-Transformers) می تواند کارایی محاسباتی را در پایگاه های داده میلیونی به شدت بهبود بخشد.

جایگاه پژوهش حاضر: با بررسی تحقیقات پیشین مشخص می شود که گذر از مدل های آماری به سمت مدل های عصبی و ترانسفورمرها یک ضرورت است. پژوهش حاضر با تلفیق معماری Sentence-BERT و مدل پایه ParsBERT، و آموزش آن با رویکرد یادگیری تقابلی بر روی دادگان اختصاصی تجارت الکترونیک ایران، سعی در پر کردن شکاف موجود در تطابق محصولات فارسی دارد.

۳. روش تحقیق

نوع تحقیق: این پژوهش از نظر هدف، یک تحقیق «کاربردی» است، زیرا خروجی آن مستقیما در صنایع و فروشگاه های اینترنتی قابل استفاده است. از نظر ماهیت و روش، در دسته تحقیقات «تحلیلی-تجربی» (توسعه مدل و ارزیابی کمی آن) قرار می گیرد.

روش گردآوری داده ها:

داده های مورد نیاز از طریق تکنیک خزش وب (Web Scraping) از سه فروشگاه بزرگ اینترنتی ایران جمع آوری شد. مجموعه داده اولیه شامل ۵۰,۰۰۰ رکورد محصول (شامل عنوان، برند، دسته بندی و ویژگی های کلیدی) بود. پس از پیش پردازش (حذف کاراکترهای ویژه، نرمال سازی نیم فاصله ها و حذف کلمات توقف بی اثر)، با استفاده از روش های برچسب گذاری دستی و نیمه خودکار، ۱۰,۰۰۰ جفت محصول به عنوان جفت های «مشابه» (Positive Pairs) و ۱۰,۰۰۰ جفت به عنوان «غیرمشابه» (Negative Pairs) برای فاز آموزش و تست جداسازی شدند.

معرفی مدل یا چارچوب پیشنهادی:

مدل پیشنهادی در این مقاله بر پایه معماری شبکه های عصبی سیامی (Siamese Neural Network) بنا شده است. در این معماری، دو ورودی متنی (عنوان محصول A و عنوان محصول B) به طور همزمان به یک مدل زبانی واحد و با وزن های مشترک (Shared Weights) تغذیه می شوند.

۱. رمزگذار (Encoder): ما از مدل از پیش آموزش دیده ParsBERT به عنوان رمزگذار استفاده کردیم. این مدل خروجی هر کلمه را تولید می کند. با استفاده از عملیات میانگین گیری (Mean Pooling) روی خروجی لایه آخر، یک بردار متراکم ۷۶۸ بعدی برای کل عنوان محصول به دست می آید.

۲. معیار شباهت: برای محاسبه میزان شباهت بین دو بردار تولید شده (vAv_AvA و vBv_BvB)، از معیار شباهت کسینوسی (Cosine Similarity) استفاده می شود که رابطه ریاضی آن به شرح زیر است:

Similarity(vA,vB)=vA⋅vB∥vA∥∥vB∥=∑i=1nvA,ivB,i∑i=1nvA,i2∑i=1nvB,i2 \text{Similarity}(v_A, v_B) = \frac{v_A \cdot v_B}{\|v_A\| \|v_B\|} = \frac{\sum_{i=1}^{n} v_{A,i} v_{B,i}}{\sqrt{\sum_{i=1}^{n} v_{A,i}^2} \sqrt{\sum_{i=1}^{n} v_{B,i}^2}} Similarity(vA,vB)=∥vA∥∥vB∥vA⋅vB=∑i=1nvA,i2∑i=1nvB,i2∑i=1nvA,ivB,i

۳. تابع زیان (Loss Function): برای تنظیم دقیق (Fine-tuning) مدل روی داده های فروشگاهی، از تابع زیان تقابلی (Contrastive Loss) استفاده شد تا فاصله بردارهای محصولات مشابه در فضای چندبعدی کاهش و فاصله محصولات غیرمشابه افزایش یابد:

L=12N∑n=1N(yd2+(1−y)max⁡(margin−d,0)2) \mathcal{L} = \frac{1}{2N} \sum_{n=1}^{N} \left( y d^2 + (1-y) \max(\text{margin} - d, 0)^2 \right) L=2N1n=1∑N(yd2+(1−y)max(margin−d,0)2)

که در آن yyy برچسب واقعی (۱ برای مشابه و ۰ برای غیرمشابه)، ddd فاصله اقلیدسی بین دو بردار، و margin\text{margin}margin حداقل فاصله مطلوب برای جفت های غیرمشابه است.

۴. یافته ها و تحلیل

برای ارزیابی عملکرد مدل پیشنهادی، آن را با دو مدل پایه (Baseline) مقایسه کردیم:

TF-IDF + Cosine Similarity: روش سنتی مبتنی بر فراوانی کلمات.
Word2Vec + Mean Pooling: مدل مبتنی بر جاسازی کلمات استاتیک.

داده های ارزیابی شامل ۲۰ درصد از کل مجموعه داده (۴۰۰۰ جفت محصول) بود که مدل در فرآیند آموزش آن ها را ندیده بود. معیارهای ارزیابی شامل دقت (Precision)، فراخوانی (Recall) و امتیاز اف-یک (F1-Score) بودند.

نام مدل دقت (Precision) فراخوانی (Recall) امتیاز (F1-Score) TF-IDF 0.680.680.68 0.550.550.55 0.610.610.61 Word2Vec 0.770.770.77 0.710.710.71 0.740.740.74 مدل پیشنهادی (ParsSBERT) 0.890.890.89 0.870.870.87 0.880.880.88

تحلیل علمی نتایج:

همان طور که در جدول مشاهده می شود، روش TF-IDF با امتیاز F1 برابر با 0.610.610.61 ضعیف ترین عملکرد را دارد. دلیل این امر ناتوانی این مدل در درک مترادف هاست (مثلا عدم درک شباهت بین کلمات “رایانه” و “کامپیوتر” یا “گوشی” و “موبایل”). مدل Word2Vec بهبود نسبی ایجاد کرده است، اما به دلیل عدم توجه به بافتار جمله (Context)، در مواردی که کلمات دارای معانی چندگانه هستند دچار خطا می شود.

مدل پیشنهادی مبتنی بر ParsBERT با کسب امتیاز 0.880.880.88 بهبود چشمگیری معادل ۱۹ درصد نسبت به Word2Vec نشان داده است. این معماری به دلیل مکانیزم توجه (Attention Mechanism) موجود در ترانسفورمرها، قادر است اهمیت هر کلمه (مانند برند یا مدل عددی) را در بافت کل عنوان محصول درک کند.

توضیح کاربرد مدل پیشنهادی:

خروجی این مدل (یک عدد بین ۰ تا ۱ به عنوان میزان شباهت) می تواند مستقیما در پایگاه های داده فروشگاهی اعمال شود. اگر شباهت دو رکورد از یک آستانه مشخص (مثلا 0.850.850.85) بیشتر باشد، سیستم می تواند به طور خودکار آن ها را به عنوان یک محصول واحد ادغام کرده (Data Deduplication) و یا به عنوان محصولات جایگزین به کاربر پیشنهاد دهد.

۵. بحث

تفسیر نتایج:

نتایج به دست آمده به وضوح نشان دهنده برتری مدل های زبانی بافتارمحور (Contextualized) در تحلیل متون پیچیده و کوتاه مانند عناوین محصولات است. یکی از چالش های اصلی در پایگاه های داده ایرانی، استفاده از ترکیب حروف انگلیسی و فارسی (فینگلیش) و کلمات اختصاری است. مدل پیشنهادی به دلیل فرآیند توکنایزیشن (Tokenization) مبتنی بر WordPiece، توانست کلمات ناشناخته را به زیرکلمه های معنادار تجزیه کند و شباهت معنایی را حتی در صورت وجود خطای املایی جزئی حفظ کند.

مقایسه با مطالعات پیشین:

نتایج این پژوهش همسو با یافته های وانگ و همکاران (۲۰۲۰) و ژانگ و چن (۲۰۲۳) است که اثربخشی معماری های مبتنی بر BERT را در حوزه تجارت الکترونیک تایید کرده بودند. با این حال، دستاورد اصلی این تحقیق نسبت به مطالعات پیشین، بومی سازی فرآیند برای زبان فارسی و ایجاد یک مجموعه داده تنظیم دقیق (Fine-tuning dataset) اختصاصی برای محصولات ایرانی است که خلاء گزارش شده در مطالعات حسینی و رضایی (۲۰۲۲) را پوشش می دهد.

۶. نتیجه گیری و پیشنهادها

جمع بندی یافته ها:

این پژوهش با هدف ارائه مدلی برای شناسایی محصولات مشابه در پایگاه های داده فروشگاهی انجام شد. با استفاده از معماری شبکه های سیامی و مدل پایه ParsBERT، مدلی توسعه یافت که می تواند متون توصیف کننده محصولات را در یک فضای برداری معنایی مپ کند. نتایج تجربی حاکی از آن است که این مدل با دقت 0.890.890.89 و فراخوانی 0.870.870.87، عملکرد بسیار مطمئن تری نسبت به رویکردهای سنتی دارد.

کاربردهای عملی:

پاک سازی داده ها (Data Cleansing): شناسایی و ادغام رکوردهای تکراری که توسط تامین کنندگان مختلف در مارکت پلیس ها (Marketplaces) ثبت می شوند.
سیستم های توصیه گر: ارائه پیشنهادهای دقیق به مشتریان در صورت ناموجود بودن یک محصول، با یافتن نزدیک ترین محصول از نظر معنایی.
بهینه سازی موتور جستجوی داخلی: کمک به یافتن محصولات حتی زمانی که کاربر نام محصول را به شکلی متفاوت از پایگاه داده جستجو می کند.

پیشنهاد برای پژوهش های آینده:

مدل های چندوجهی (Multi-modal): پیشنهاد می شود در تحقیقات آینده، علاوه بر متن، از تصاویر محصولات نیز به عنوان ورودی استفاده شود و معماری های پردازش تصویر (مانند ViT) با مدل های متنی ترکیب گردند تا دقت شناسایی افزایش یابد.
تطابق چندزبانه (Cross-lingual Matching): توسعه مدلی که بتواند محصولات ثبت شده به زبان انگلیسی را با معادل های فارسی آن ها در پایگاه داده تطبیق دهد.

۷. منابع

Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics (pp. 4171-4186).
Farahani, M., Gharachorloo, M., Farahani, M., & Manthouri, M. (2021). ParsBERT: Transformer-based model for Persian language understanding. Neural Processing Letters, 53(6), 3831-3847.
Hosseini, S., & Rezaei, M. (2022). Comparative analysis of word embedding techniques for Persian product reviews classification. Journal of Artificial Intelligence and Data Mining, 10(2), 245-257.
Li, Y., Wang, Z., & Chen, H. (2021). E-commerce product matching using Graph Convolutional Networks and Siamese architectures. Knowledge-Based Systems, 214, 106738.
Pahlavan, A., Ebrahimi, R., & Kamali, M. (2023). Context-aware recommendation systems in Persian e-commerce using pre-trained language models. Expert Systems with Applications, 218, 119562.
Reimers, N., & Gurevych, I. (2019). Sentence-BERT: Sentence embeddings using Siamese BERT-networks. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing (pp. 3982-3992).
Shahbazi, M., & Karimi, H. (2020). Semantic similarity algorithms for Persian texts: A comprehensive review. Iranian Journal of Computer Science, 3(4), 211-225.
Wang, X., He, Y., & Ji, L. (2020). Cross-attention based Transformer for entity matching in heterogeneous databases. IEEE Transactions on Knowledge and Data Engineering, 34(5), 2314-2327.
Zhang, L., & Chen, Q. (2023). Large-scale product matching using contrastive learning and triplet loss optimization. Information Processing & Management, 60(3), 103241.
Zare, S., & Mohammadi, A. (2021). Handling out-of-vocabulary challenges in Persian NLP using sub-word tokenization methods. Computational Linguistics Research, 14(1), 45-60.

تجارت الکترونیک یادگیری عمیق پردازش زبان طبیعی (NLP)استودیوی هوش مصنوعی رهانیک مهندس رها حسن آبادی

یادداشت قبلی

تحلیل نقش داده های ساختاریافته در بهبود تجربه کاربری در مارکت پلیس های آنلاین؛ با تاکید بر کاهش بار شناختی و افزایش قابلیت کشف اطلاعات