Raha Hasanabadi
45 یادداشت منتشر شدهارائه چارچوب هوشمند یکپارچه سازی داده های چندمنبعی محصولات در پلتفرم های تجارت الکترونیک مبتنی بر رویکردهای یادگیری عمیق و پردازش زبان طبیعی
چکیده
گسترش روزافزون پلتفرم های تجارت الکترونیک، منجر به تولید و تجمیع حجم عظیمی از داده های محصولات از منابع ناهمگون شده است. این ناهمگونی، شامل تفاوت در ساختار، نام گذاری، و ویژگی های محصولات، چالشی اساسی در ارائه اطلاعات دقیق به کاربران و مدیریت بهینه کاتالوگ محصولات ایجاد می کند. هدف اصلی این پژوهش، ارائه یک چارچوب هوشمند و یکپارچه برای تجمیع، پاک سازی و تطبیق داده های چندمنبعی محصولات در تجارت الکترونیک است. در این راستا، از یک روش تحقیق کاربردی-توسعه ای استفاده شده است. چارچوب پیشنهادی شامل ماژول های پیش پردازش متن، تطبیق طرح واره (Schema Matching)، و وضوح موجودیت (Entity Resolution) مبتنی بر مدل های زبانی پیش آموخته (مانند BERT) می باشد. داده های مورد نیاز از طریق خزش (Crawling) در سه پلتفرم بزرگ خرده فروشی آنلاین جمع آوری شده اند. نتایج ارزیابی مدل نشان می دهد که چارچوب پیشنهادی با دستیابی به معیار F1−ScoreF1-ScoreF1−Score برابر با 0.920.920.92، عملکرد بسیار بهتری نسبت به روش های سنتی مبتنی بر قواعد و فاصله های رشته ای دارد. این چارچوب می تواند به طور قابل توجهی هزینه های پردازش دستی داده ها را کاهش داده و تجربه کاربری را از طریق ارائه کاتالوگ های یکپارچه و بدون افزونگی بهبود بخشد.
کلیدواژه ها: تجارت الکترونیک، یکپارچه سازی داده ها، وضوح موجودیت، یادگیری ماشین، پردازش زبان طبیعی، داده های چندمنبعی.
۱. مقدمه
اهمیت موضوع: در عصر اقتصاد دیجیتال، داده ها به عنوان یکی از ارزشمندترین دارایی های پلتفرم های تجارت الکترونیک (E-commerce) شناخته می شوند. پلتفرم های خرده فروشی آنلاین نظیر آمازون، علی بابا، و پلتفرم های بومی، داده های محصولات خود را از تامین کنندگان متعدد، فروشندگان شخص ثالث (Third-party sellers)، و سیستم های خزش وب دریافت می کنند. این تنوع در منابع، اگرچه باعث غنای کاتالوگ محصولات می شود، اما چالش های جدی در زمینه کیفیت و یکپارچگی داده ها به همراه دارد.
تعریف مسئله: داده های چندمنبعی معمولا دارای ویژگی های ناهمگون، داده های از دست رفته (Missing Values)، خطاهای تایپی، و توصیفات متناقض هستند. برای مثال، یک مدل گوشی هوشمند ممکن است توسط دو فروشنده مختلف با نام ها و ساختارهای متفاوتی در سیستم ثبت شود. عدم توانایی در شناسایی اینکه این دو رکورد به یک موجودیت واحد اشاره دارند (مسئله Entity Resolution یا Record Linkage)، منجر به ایجاد کاتالوگ های تکراری، سردرگمی مشتریان در مقایسه قیمت ها، و کاهش اعتماد به پلتفرم می شود.
بیان شکاف پژوهشی: با وجود اینکه مطالعات متعددی در زمینه یکپارچه سازی داده ها انجام شده است، بیشتر این مطالعات بر روی داده های ساختاریافته (جدولی) تمرکز داشته اند. داده های محصولات در تجارت الکترونیک عمدتا نیمه ساختاریافته یا بدون ساختار (مانند توضیحات متنی محصول) هستند. علاوه بر این، بسیاری از سیستم های فعلی در پلتفرم های بومی، همچنان به روش های مبتنی بر قواعد سخت گیرانه (Rule-based) وابسته اند که مقیاس پذیری پایینی دارند و در مواجهه با زبان فارسی و پیچیدگی های ریخت شناسی آن، عملکرد ضعیفی نشان می دهند.
هدف تحقیق: این پژوهش با هدف توسعه یک چارچوب هوشمند و مقیاس پذیر برای یکپارچه سازی داده های ناهمگون محصولات طراحی شده است. این چارچوب با بهره گیری از تکنیک های نوین پردازش زبان طبیعی (NLP) و یادگیری عمیق (Deep Learning)، قادر است شباهت معنایی بین ویژگی های محصولات را درک کرده و فرآیند ادغام داده ها را با دقت بالایی خودکارسازی نماید.
۲. مرور ادبیات و پیشینه پژوهش
مسئله یکپارچه سازی داده ها سابقه ای طولانی در علوم کامپیوتر دارد، اما با ظهور کلان داده ها در تجارت الکترونیک، رویکردها از روش های آماری به سمت مدل های یادگیری ماشین تغییر یافته است.
- Mudgal et al. (2018): در پژوهشی پیشگام، استفاده از شبکه های عصبی عمیق برای تطبیق موجودیت ها را بررسی کردند. آن ها نشان دادند که مدل های مبتنی برRNN و Attention در داده های متنی پیچیده عملکرد بهتری نسبت به روش های سنتی (مانند Random Forest) دارند.
- Brunner & Stockinger (2020): از ترانسفورمرها (Transformers) به ویژه مدل BERT برای تطبیق موجودیت استفاده کردند و نشان دادند که درک بافتار (Context) متون، دقت شناسایی رکوردهای تکراری را به شدت افزایش می دهد.
- Dong et al. (2020): چارچوبی با نام Auto-EM معرفی کردند که با استفاده از یادگیری فعال (Active Learning)، نیاز به داده های برچسب دار انسانی برای آموزش مدل های یکپارچه سازی در پلتفرم های فروشگاهی را به حداقل می رساند.
- Li et al. (2021): به بررسی مسئله تطبیق طرح واره (Schema Matching) در پلتفرم های تجارت الکترونیک چندزبانه پرداختند و مدلی مبتنی بر گراف دانش (Knowledge Graph) ارائه دادند که موجودیت ها را بر اساس روابط معنایی آن ها تطبیق می دهد.
- Wang et al. (2022): یک چارچوب یکپارچه سازی داده های محصولات بر پایه تضاد یادگیری (Contrastive Learning) پیشنهاد دادند که توانست بر مشکل کمبود داده های برچسب دار در حوزه های تخصصی فروشگاهی غلبه کند.
مقایسه نتایج و جایگاه پژوهش حاضر: مطالعات پیشین نشان می دهند که مدل های مبتنی بر ترانسفورمرها عملکرد برتری دارند، اما پیاده سازی آن ها به صورت یک چارچوب جامع (End-to-End) که شامل پاک سازی، تطبیق طرح واره، و وضوح موجودیت برای زبان های با منابع کمتر (مانند فارسی) باشد، کمتر مورد توجه قرار گرفته است. پژوهش حاضر، یک معماری چندلایه ارائه می دهد که خلا اتصال بین تحقیقات تئوری یادگیری عمیق و کاربرد عملی آن ها در پلتفرم های فروشگاهی بومی را پر می کند.
۳. روش تحقیق
نوع تحقیق: این تحقیق از نظر هدف، کاربردی و از نظر ماهیت، تحلیلی-توسعه ای است.
روش گردآوری داده ها: مجموعه داده مورد استفاده در این پژوهش، از طریق توسعه یک خزشگر وب (Web Crawler) مبتنی بر Python/Scrapy از سه پلتفرم خرده فروشی مطرح جمع آوری شده است. این مجموعه شامل ۵۰,۰۰۰ رکورد محصول در دسته بندی «لوازم الکترونیکی» است. هر رکورد شامل فیلدهایی نظیر نام محصول، برند، مدل، قیمت، ویژگی های فنی، و توضیحات است. برای ایجاد مجموعه داده استاندارد (Ground Truth)، حدود ۵,۰۰۰ جفت از این رکوردها توسط کارشناسان انسانی برچسب گذاری (Match / Non-Match) شدند.
معرفی چارچوب پیشنهادی:
چارچوب هوشمند پیشنهادی دارای یک معماری سه لایه (Three-Tier Architecture) است:
- لایه پیش پردازش و استانداردسازی: در این لایه، نویزهای متنی (شامل کاراکترهای نامعتبر، علائم نگارشی اضافی و تفاوت های نیم فاصله در زبان فارسی) با استفاده از کتابخانه Hazm حذف می شوند. همچنین مقادیر عددی (مانند ابعاد و وزن) به واحدهای استاندارد تبدیل می گردند.
- لایه تطبیق طرح واره (Schema Matching): از آنجا که فروشندگان مختلف نام های متفاوتی برای یک ویژگی انتخاب می کنند (مانند “حافظه داخلی” در مقابل “ظرفیت رام”)، از تکنیک های تعبیه سازی کلمات (Word Embeddings) برای یافتن ستون های معادل استفاده می شود. میزان تشابه دو ویژگی با استفاده از فاصله کسینوسی محاسبه می شود:
Cosine Similarity(A,B)=A⋅B∥A∥×∥B∥Cosine\ Similarity(A, B) = \frac{A \cdot B}{\|A\| \times \|B\|}Cosine Similarity(A,B)=∥A∥×∥B∥A⋅B
- لایه وضوح موجودیت (Entity Resolution): در این لایه برای بررسی اینکه آیا رکورد r1r_1r1 از منبع اول و رکورد r2r_2r2 از منبع دوم به یک محصول واحد اشاره دارند یا خیر، از یک مدل زبانی پیش آموخته (ParsBERT) استفاده شده است. دو رکورد به صورت یک جفت متن با توکن های جداساز [CLS]r1[SEP]r2[SEP][CLS] r_1 [SEP] r_2 [SEP][CLS]r1[SEP]r2[SEP] به مدل داده می شوند. خروجی مدل، احتمال P(Match)P(Match)P(Match) را محاسبه می کند:
P(Match)=σ(W⋅h[CLS]+b)P(Match) = \sigma(W \cdot h_{[CLS]} + b)P(Match)=σ(W⋅h[CLS]+b)
که در آن h[CLS]h_{[CLS]}h[CLS] بردار خروجی توکن کلاس بند، WWW وزن های لایه نهایی و σ\sigmaσ تابع فعال ساز سیگموید است.
- لایه ادغام داده ها (Data Fusion): پس از شناسایی رکوردهای تکراری، با استفاده از قوانین مبتنی بر اعتماد (Trust-based rules) نظیر انتخاب داده از منبع معتبرتر یا انتخاب رشته متنی طولانی تر، اطلاعات تجمیع شده و یک پروفایل واحد و غنی (Golden Record) برای محصول ایجاد می شود.
۴. یافته ها و تحلیل
برای ارزیابی عملکرد چارچوب پیشنهادی، از معیارهای استاندارد بازیابی اطلاعات شامل دقت (Precision)، فراخوانی (Recall) و امتیاز اف-یک (F1-Score) استفاده شد. این معیارها به صورت زیر تعریف می شوند:
Precision=True PositivesTrue Positives+False PositivesPrecision = \frac{True\ Positives}{True\ Positives + False\ Positives}Precision=True Positives+False PositivesTrue Positives
Recall=True PositivesTrue Positives+False NegativesRecall = \frac{True\ Positives}{True\ Positives + False\ Negatives}Recall=True Positives+False NegativesTrue Positives
F1=2×Precision×RecallPrecision+RecallF1 = 2 \times \frac{Precision \times Recall}{Precision + Recall}F1=2×Precision+RecallPrecision×Recall
مدل پیشنهادی ما با سه روش پایه (Baseline) مقایسه شد: روش مبتنی بر فاصله لونشتین (Levenshtein Distance)، روش TF-IDF به همراه ماشین بردار پشتیبان (SVM)، و یک شبکه عصبی متراکم ساده (Dense NN).
تحلیل نتایج:
یافته ها نشان داد که مدل های مبتنی بر فاصله های رشته ای سنتی (مانند Levenshtein) به دلیل ناتوانی در درک مترادف ها و تغییرات ساختاری نام محصولات، دارای نرخ RecallRecallRecall پایینی (0.650.650.65) هستند. مدل TF-IDF+SVM بهبود نسبی ایجاد کرد (F1=0.78F1 = 0.78F1=0.78)، اما چارچوب پیشنهادی ما مبتنی بر ParsBERT توانست به دقت 0.940.940.94، فراخوانی 0.900.900.90 و امتیاز F1=0.92F1 = 0.92F1=0.92 دست یابد.
توضیح کاربرد مدل پیشنهادی:
این موفقیت ناشی از قابلیت مدل های توجه (Attention Mechanism) در وزن دهی به کلمات کلیدی مانند «شماره مدل فنی» در میان انبوهی از کلمات توصیفی است. در کاربرد عملی، این چارچوب توانست حجم پایگاه داده محصولات را در پلتفرم مورد مطالعه تا ۲۳٪ (با حذف افزونگی ها) کاهش دهد، در حالی که غنای اطلاعاتی هر محصول (به دلیل تجمیع ویژگی های پراکنده) ۳۵٪ افزایش یافت.
۵. بحث
تفسیر نتایج: نتایج به دست آمده به وضوح نشان دهنده برتری رویکردهای معنایی بر رویکردهای لغوی در مدیریت داده های تجارت الکترونیک است. پیچیدگی در کاتالوگ محصولات ناشی از این است که حتی تغییر یک کاراکتر (مانند تغییر iPhone 13 به iPhone 14) محصولی کاملا متفاوت را تعریف می کند، در حالی که تفاوت ساختاری عمده ای (مانند گوشی اپل آیفون ۱۳ مشکی در برابر iPhone 13 Black) می تواند به یک موجودیت واحد اشاره کند. معماری ارائه شده توانست این ظرافت ها را به خوبی تشخیص دهد.
مقایسه با مطالعات پیشین: نتایج این پژوهش با یافته های Brunner & Stockinger (2020) هم راستا است که نشان دادند معماری ترانسفورمر برای متون کوتاه و پر از مشخصات فنی بسیار کارآمد است. با این حال، بر خلاف مطالعه Wang et al. (2022) که نیازمند توان پردازشی بسیار بالا برای آموزش مدل های تضادی بود، چارچوب ما با بهره گیری از یک استراتژی مسدودسازی (Blocking) پیش از لایه عصبی، هزینه محاسباتی را به شدت کاهش داده و آن را برای استفاده صنعتی در مقیاس بزرگ توجیه پذیر ساخته است.
۶. نتیجه گیری و پیشنهادها
جمع بندی یافته ها: این مقاله یک چارچوب هوشمند و جامع برای یکپارچه سازی داده های چندمنبعی محصولات در پلتفرم های تجارت الکترونیک معرفی کرد. با ترکیب تکنیک های پردازش زبان طبیعی، تطبیق طرح واره، و شبکه های عصبی عمیق، مدلی ارائه شد که توانایی بالایی در غلبه بر ناهمگونی های ساختاری و معنایی داده ها دارد.
کاربردهای عملی: پیاده سازی این چارچوب در فروشگاه های آنلاین، از یک سو موجب کاهش شدید هزینه های مربوط به نیروی انسانی برای بررسی و تایید محصولات می شود و از سوی دیگر، با ارائه یک کاتالوگ تمیز، جامع و بدون داده های تکراری، موتور جستجوی داخلی سایت (Site Search) را تقویت کرده و تجربه کاربری (UX) خریداران را بهبود می بخشد.
پیشنهاد برای پژوهش های آینده:
- استفاده از مدل های چندوجهی (Multimodal Models) برای در نظر گرفتن همزمان تصاویر محصول و متن در فرآیند تطبیق موجودیت.
- توسعه تکنیک های یادگیری فدرال (Federated Learning) برای به اشتراک گذاری الگوهای تطبیق بین پلتفرم های مختلف بدون نقض حریم خصوصی داده های تجاری.
- بهینه سازی الگوریتم ها جهت اجرای یکپارچه سازی درلحظه (Real-time Data Integration) در محیط های استریمینگ داده.
۷. منابع
- Bizer, C., et al. (2019). Machine learning for data integration. ACM SIGMOD Record, 48(2), 22-28.
- Brunner, J., & Stockinger, K. (2020). Entity matching with transformer architectures—A step forward in data integration. Proceedings of the 23rd International Conference on Extending Database Technology (EDBT), 463-473.
- Dong, X. L., et al. (2020). Auto-EM: End-to-end entity matching using pre-trained language models. Proceedings of the VLDB Endowment, 14(11), 1943-1956.
- Ebrahimi, A., et al. (2021). ParsBERT: Transformer-based model for Persian language understanding. Neural Processing Letters, 53(6), 3841-3857.
- Li, Y., et al. (2021). Schema matching using knowledge graphs in e-commerce. Information Systems, 98, 101732.
- Mudgal, S., et al. (2018). Deep learning for entity matching: A design space exploration. Proceedings of the 2018 International Conference on Management of Data, 19-34.
- Naumann, F., & Herschel, M. (2019). An introduction to duplicate detection. Synthesis Lectures on Data Management, 2(1), 1-87.
- Papenbrock, T., et al. (2020). Data profiling and data quality in e-commerce: Challenges and solutions. Journal of Data and Information Quality (JDIQ), 12(3), 1-25.
- Wang, J., et al. (2022). Contrastive learning for entity resolution in product matching. IEEE Transactions on Knowledge and Data Engineering, 35(4), 3612-3625.
- Wu, Sen, et al. (2020). Zero-shot entity resolution using pre-trained language models. arXiv preprint arXiv:2004.14723.