Raha Hasanabadi

طراحی سیستم هوشمند کشف محصولات ترند با تحلیل داده های جستجوی کاربران

8 تیر 1405 - خواندن 16 دقیقه - 21 بازدید

چکیده

گسترش روزافزون تجارت الکترونیک و حجم عظیم داده های تولید شده توسط کاربران، نیازمندی به سیستم های هوشمند برای تحلیل رفتار مصرف کننده را بیش از پیش برجسته ساخته است. یکی از چالش های اساسی پلتفرم های فروشگاهی و موتورهای جستجوی کالا، شناسایی زودهنگام محصولات نوظهور و پرطرفدار (ترند) پیش از رسیدن به نقطه اوج تقاضا است. سیستم های سنتی غالبا بر داده های فروش گذشته تکیه دارند که طبیعتی گذشته نگر داشته و قادر به پیش بینی روندهای آتی نیستند. هدف از این پژوهش، طراحی یک چارچوب و سیستم هوشمند مبتنی بر پردازش زبان طبیعی (NLP) و یادگیری عمیق برای کشف محصولات ترند از طریق تحلیل سیگنال های نهفته در داده های جستجوی کاربران است. در این راستا، پژوهش حاضر از نوع کاربردی-تحلیلی بوده و روش پیشنهادی با بهره گیری از مدل های سری زمانی و شبکه های عصبی بازگشتی (LSTM) بر روی عبارات جستجو شده مدل سازی شده است. نتایج این تحقیق نشان می دهد که تحلیل توالی زمانی جستجوها، همراه با استخراج معنایی کلمات کلیدی، می تواند با دقت بالایی الگوهای نوظهور تقاضا را شناسایی کند. این سیستم نه تنها به مدیران پلتفرم های تجارت الکترونیک در بهینه سازی زنجیره تامین و مدیریت موجودی کمک می کند، بلکه در شخصی سازی توصیه های محصول نیز نقش بسزایی ایفا می نماید.

کلیدواژه ها: سیستم هوشمند، محصولات ترند، تحلیل داده های جستجو، تجارت الکترونیک، پردازش زبان طبیعی، یادگیری عمیق.

۱. مقدمه

در عصر اقتصاد دیجیتال، داده های تولید شده در پلتفرم های تجارت الکترونیک به عنوان یکی از ارزشمندترین دارایی های استراتژیک سازمان ها شناخته می شوند. با تغییر مداوم سلیقه مصرف کنندگان و چرخه عمر کوتاه تر محصولات مدرن، توانایی پیش بینی و شناسایی محصولاتی که در آستانه محبوبیت قرار دارند (محصولات ترند)، به یک مزیت رقابتی کلیدی تبدیل شده است. اهمیت این موضوع از آن جهت است که کشف زودهنگام محصولات ترند به تامین کنندگان و فروشندگان اجازه می دهد تا پیش از مواجهه با شوک تقاضا، زنجیره تامین خود را بهینه سازی کرده، استراتژی های قیمت گذاری رقابتی اتخاذ نموده و کمپین های بازاریابی هدفمندی را طراحی کنند.

مسئله اصلی در شناسایی محصولات ترند، تاخیر ذاتی در شاخص های سنتی است. بیشتر سیستم های هوش تجاری فعلی بر اساس تحلیل حجم فروش و تراکنش های موفق عمل می کنند. این رویکرد دارای یک شکاف پژوهشی و عملیاتی بزرگ است؛ زیرا زمانی که یک محصول در داده های فروش خود را به عنوان “پرفروش” نشان می دهد، در واقع ترند بازار به بلوغ رسیده و فرصت طلایی برای پیشگامی در بازار از دست رفته است. در مقابل، «قصد جستجو» (Search Intent) کاربر، یک شاخص پیشرو (Leading Indicator) محسوب می شود. کاربران معمولا روزها یا هفته ها قبل از اقدام به خرید، شروع به جستجو، مقایسه و کسب اطلاعات درباره محصولات جدید می کنند.

با وجود اهمیت داده های جستجو، استخراج دانش از این داده های بدون ساختار، نویزدار و به شدت متغیر، چالشی بزرگ در حوزه علوم داده است. خطاهای املایی، استفاده از کلمات هم معنی، تغییرات فصلی و نوسانات تصادفی، تحلیل این داده ها را پیچیده می سازد. از این رو، هدف این تحقیق، طراحی یک سیستم هوشمند و یکپارچه است که با استفاده از تکنیک های پیشرفته پردازش زبان طبیعی برای درک معنایی عبارات و مدل های یادگیری ماشین برای تحلیل توالی زمانی تقاضا، بتواند محصولات ترند را در مراحل اولیه شکل گیری شناسایی کند. این پژوهش در تلاش است تا به این سوال اساسی پاسخ دهد که چگونه می توان با مدل سازی ریاضی و هوش مصنوعی، سیگنال های ضعیف تقاضای نوظهور را در میان انبوه داده های جستجوی متنی کشف و اعتبارسنجی نمود.

۲. مرور ادبیات و پیشینه پژوهش

تحلیل رفتار جستجوی کاربران و پیش بینی تقاضا در سال های اخیر مورد توجه بسیاری از پژوهشگران علوم کامپیوتر و مدیریت سیستم های اطلاعاتی قرار گرفته است. بررسی ادبیات نشان می دهد که تکامل این سیستم ها از روش های آماری ساده به سمت مدل های پیچیده یادگیری عمیق حرکت کرده است.

در مطالعه ای که توسط ژانگ و همکاران (Zhang et al., 2021) انجام شد، محققان از تکنیک های داده کاوی بر روی لاگ های جستجوی موتورهای جستجوی کالا استفاده کردند. آن ها نشان دادند که تغییرات ناگهانی در فرکانس جستجوی عبارات خاص، همبستگی بالایی با فروش آینده دارد. با این حال، روش آن ها صرفا مبتنی بر آستانه های ثابت آماری بود و قادر به درک روابط معنایی بین کلمات نبود.

چن و وانگ (Chen & Wang, 2022) در پژوهش خود بر روی پیش بینی سری های زمانی تقاضا، از مدل های سنتی مانند ARIMA استفاده کردند. نتایج آن ها نشان داد که اگرچه این مدل ها برای محصولات با الگوی تقاضای خطی مناسب هستند، اما در مواجهه با ترندهای ناگهانی (Spikes) که در شبکه های اجتماعی ریشه دارند، عملکرد ضعیفی از خود نشان می دهند.

در حوزه پردازش متون فارسی برای تجارت الکترونیک، حسینی و مرادی (Hosseini & Moradi, 2022) یک چارچوب برای استخراج موجودیت های نام دار (NER) از کوئری های کاربران ارائه دادند. تحقیق آن ها گام مهمی در بومی سازی ابزارهای پردازش زبان طبیعی بود، اما نتایج آن به پیش بینی زمان محور ترندها متصل نشده بود.

لیو و همکاران (Liu et al., 2023) در یک تحقیق پیشرو، از شبکه های عصبی بازگشتی و به طور خاص حافظه کوتاه مدت ماندگار (LSTM) برای پیش بینی تقاضای محصول استفاده کردند. مدل آن ها قادر بود وابستگی های زمانی بلندمدت را یاد بگیرد، اما داده های ورودی آن ها محدود به متغیرهای ساختاریافته بود و از متن خام جستجوها به عنوان ورودی خام استفاده نمی کردند.

همچنین، رضایی و همکاران (Rezaei et al., 2024) به مقایسه سیستم های توصیه گر و سیستم های کشف ترند پرداختند و نتیجه گرفتند که سیستم های توصیه گر تمایل به ایجاد حباب فیلتر (Filter Bubble) دارند و محصولات پرفروش گذشته را تقویت می کنند، در حالی که سیستم های کشف ترند نیازمند الگوریتم های اکتشافی (Exploration-based) برای شناسایی محصولات در انتهای توزیع (Long-tail) هستند.

جایگاه پژوهش حاضر:

بررسی پیشینه نشان می دهد که شکاف قابل توجهی در ادغام “تحلیل معنایی کوئری های جستجو” با “مدل سازی پیش بینانه سری های زمانی” وجود دارد؛ به ویژه برای زبان هایی با پیچیدگی های ساختاری مانند فارسی. پژوهش حاضر با ترکیب تکنیک های تعبیه سازی کلمات (Word Embeddings) برای درک مفهوم محصولات مشابه و استفاده از شبکه های عصبی عمیق برای تحلیل روند رشد زمانی، سعی در پر کردن این شکاف دارد و مدلی جامع برای پلتفرم های واسط و فروشگاه های اینترنتی ارائه می دهد.

۳. روش تحقیق

این پژوهش از نظر هدف در زمره تحقیقات کاربردی قرار دارد و از نظر ماهیت و روش، یک تحقیق تحلیلی-اکتشافی مبتنی بر مدل سازی محاسباتی است. جامعه آماری و محیط اجرای این پژوهش، لاگ های جستجوی کاربران در پلتفرم های تجارت الکترونیک است.

۳-۱. روش گردآوری داده ها

داده های مورد نیاز برای آموزش و ارزیابی مدل، شامل مجموعه ای از کوئری های جستجو شده توسط کاربران به همراه متادیتاهای زمانی (Timestamp) است. هر رکورد داده شامل شناسه نشست (Session ID)، عبارت جستجو شده (Query String)، زمان جستجو و دسته بندی احتمالی است. به منظور حفظ حریم خصوصی کاربران، تمامی داده ها پیش از ورود به چرخه پردازش، بی نام سازی (Anonymized) می شوند.

۳-۲. چارچوب و مدل پیشنهادی

معماری سیستم هوشمند پیشنهادی از چهار فاز اصلی تشکیل شده است:

فاز اول: پیش پردازش متون (Text Preprocessing)

از آنجا که کوئری های جستجوی کاربران معمولا کوتاه، حاوی غلط های املایی و محاوره ای هستند، پیش پردازش استاندارد شامل نرمال سازی نویسه های فارسی، حذف کلمات توقف (Stop-words) و ریشه یابی (Stemming/Lemmatization) انجام می شود.

فاز دوم: استخراج ویژگی و تعبیه سازی (Feature Extraction & Embedding)

برای تبدیل متون به بردارهای قابل فهم برای ماشین، ابتدا از معیار TF-IDF برای وزن دهی به کلمات استفاده می شود. فرمول محاسبه وزن هر ترم ttt در سند ddd به صورت زیر تعریف می شود:

Wt,d=TFt,d×log⁡(NDFt)W_{t,d} = TF_{t,d} \times \log(\frac{N}{DF_t})Wt,d=TFt,d×log(DFtN)

که در آن NNN تعداد کل کوئری ها و DFtDF_tDFt تعداد کوئری های شامل ترم ttt است.

سپس برای درک ارتباط معنایی (مثلا درک اینکه “گوشی سامسونگ” و “موبایل گلکسی” به یک مفهوم اشاره دارند)، از مدل های تعبیه کلمات نظیر FastText یا Word2Vec استفاده می گردد تا هر عبارت جستجو به یک بردار متراکم فضایی v∈Rdv \in \mathbb{R}^dv∈Rd تبدیل شود.

فاز سوم: خوشه بندی کلمات کلیدی هم مفهوم

به منظور جلوگیری از پراکندگی داده ها، عبارات جستجوی مشابه با استفاده از الگوریتم DBSCAN خوشه بندی می شوند تا کلان روندها (Macro-trends) شکل گیرند.

فاز چهارم: مدل سازی پیش بینانه تقاضا با LSTM

در این فاز، حجم جستجوی هر خوشه در بازه های زمانی متوالی (مثلا روزانه) به عنوان یک سری زمانی X={x1,x2,…,xt}X = \{x_1, x_2, \dots, x_t\}X={x1,x2,…,xt} در نظر گرفته می شود. برای پیش بینی اینکه آیا یک محصول در آینده نزدیک تبدیل به ترند خواهد شد، از شبکه عصبی LSTM استفاده می کنیم. معادلات پایه در یک سلول LSTM برای کنترل جریان اطلاعات به شکل زیر است:

دروازه فراموشی (Forget Gate):

ft=σ(Wf⋅[ht−1,xt]+bf)f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)ft=σ(Wf⋅[ht−1,xt]+bf)

دروازه ورودی (Input Gate):

it=σ(Wi⋅[ht−1,xt]+bi)i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i)it=σ(Wi⋅[ht−1,xt]+bi)

به روزرسانی وضعیت سلول (Cell State):

Ct=ft∗Ct−1+it∗tanh⁡(Wc⋅[ht−1,xt]+bc)C_t = f_t \ast C_{t-1} + i_t \ast \tanh(W_c \cdot [h_{t-1}, x_t] + b_c)Ct=ft∗Ct−1+it∗tanh(Wc⋅[ht−1,xt]+bc)

محاسبه خروجی نهایی پنهان:

ht=σ(Wo⋅[ht−1,xt]+bo)∗tanh⁡(Ct)h_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o) \ast \tanh(C_t)ht=σ(Wo⋅[ht−1,xt]+bo)∗tanh(Ct)

در این معماری، خروجی مدل یک امتیاز ترند (Trend Score) است که احتمال رشد نمایی تقاضا برای یک محصول خاص در پنجره زمانی آینده را نشان می دهد.

۴. یافته ها و تحلیل

برای ارزیابی سیستم پیشنهادی، داده های شبیه سازی شده و لاگ های جستجو طی یک دوره شش ماهه مورد تحلیل قرار می گیرند. یافته های حاصل از پیاده سازی این مدل، ابعاد علمی و کاربردی متعددی را روشن می سازد.

۴-۱. تحلیل علمی نتایج عملکرد مدل

یافته های محاسباتی نشان می دهد که سیستم های مبتنی بر فرکانس ساده، نویز بسیار بالایی دارند. به عنوان مثال، جستجوی کلمات عمومی مانند “کفش” یا “لپ تاپ” همیشه بالاست اما به معنای یک ترند جدید نیست. سیستم پیشنهادی توانست با استفاده از تحلیل معنایی، جهش های معنادار در کلمات کلیدی ترکیبی (Long-tail Keywords) را شناسایی کند. مدل LSTM با بررسی شیب رشد تقاضا (Gradient of Demand) در داده های تاریخی، توانست بین نوسانات فصلی (مانند جستجوی لوازم التحریر در شهریور ماه) و ترندهای نوظهور (مانند یک مدل جدید از گجت های پوشیدنی که به تازگی وایرال شده است) تمایز قائل شود.

معیارهای ارزیابی مدل با استفاده از ماتریس درهم ریختگی (Confusion Matrix) محاسبه می شود. دقت (Precision) سیستم نشان دهنده این است که چه نسبتی از محصولاتی که توسط سیستم به عنوان ترند پیش بینی شده اند، واقعا در واقعیت پرفروش شده اند:

Precision=TPTP+FPPrecision = \frac{TP}{TP + FP}Precision=TP+FPTP

و معیار فراخوانی (Recall) توانایی سیستم در کشف تمام ترندهای موجود در بازار را نشان می دهد. تحلیل ها حاکی از آن است که اضافه کردن لایه پردازش زبان طبیعی پیش از مدل سازی سری زمانی، معیار دقت را به میزان قابل توجهی ارتقا داده و نرخ هشدارهای کاذب (False Positives) ناشی از جستجوهای تصادفی یا اسپم را کاهش می دهد.

۴-۲. کاربرد مدل پیشنهادی در محیط واقعی

از دیدگاه کاربردی، خروجی این سیستم هوشمند به صورت یک داشبورد تحلیلی در اختیار مدیران پلتفرم و فروشندگان قرار می گیرد. زمانی که سیستم یک محصول را در مرحله “پیش ازترند” (Pre-trend phase) شناسایی می کند، پلتفرم می تواند اقدامات زیر را انجام دهد:

الف) بهینه سازی سئو محلی (Local SEO) و تولید محتوا: با شناسایی عبارات جستجو شده، تیم محتوا می تواند سریعا مقالات راهنما و صفحات فرود (Landing Pages) مرتبط با آن محصولات را ایجاد کند تا ترافیک ارگانیک موتورهای جستجوی خارجی (مانند گوگل) را نیز جذب نماید.

ب) تخصیص پویای موجودی: آگاه سازی تامین کنندگان برای تامین موجودی کالای ترند شده پیش از اتمام موجودی فعلی (Stock-out).

ج) بازاریابی بازگشتی هدفمند: کاربرانی که کلمات کلیدی نوظهور را جستجو کرده اند، به عنوان گروه های هدف برای کمپین های تبلیغاتی با نرخ تبدیل بالا انتخاب می شوند.

۵. بحث

نتایج به دست آمده در این پژوهش با مبانی نظری و یافته های تحقیقات پیشین همخوانی دارد، اما از نظر متدولوژی، بهبودهای چشمگیری را ارائه می دهد. در مطالعاتی نظیر چن و وانگ (2022)، تکیه بر مدل های خطی باعث می شد تا محصولات ترند با تاخیر چند روزه شناسایی شوند. در حالی که معماری ترکیبی ما (NLP + LSTM) توانست سیگنال های ضعیف را از همان ساعات اولیه شکل گیری رفتار جمعی (Herd Behavior) کاربران کشف کند.

یکی از دستاوردهای مهم در بخش بحث، تفسیر پدیده “جستجوی بدون نتیجه” (Zero-result Queries) است. زمانی که کاربران محصول جدیدی را جستجو می کنند که هنوز در پلتفرم موجود نیست، سیستم های سنتی این رکوردها را نادیده می گیرند. اما مدل پیشنهادی ما، با خوشه بندی این کلمات کلیدی جدید و تحلیل شتاب (Acceleration) جستجوی آن ها، این موارد را به عنوان قوی ترین سیگنال های ترندهای آتی (موسوم به تقاضای برآورده نشده) طبقه بندی می کند.

با این حال، این سیستم با چالش هایی نیز روبروست. رویدادهای ناگهانی خارج از محیط تجارت الکترونیک (مانند تغییرات شدید نرخ ارز، اخبار سیاسی یا ترندهای زودگذر شبکه های اجتماعی) می توانند باعث ایجاد پیک های کاذب در داده های جستجو شوند که تبدیل به فروش واقعی نمی گردند. برای کاهش این خطا، مدل نیازمند دریافت داده های زمینه ای (Contextual Data) و تحلیل احساسات (Sentiment Analysis) در سطح شبکه های اجتماعی است تا انگیزه پشت جستجوها را بهتر درک کند.

۶. نتیجه گیری و پیشنهادها

۶-۱. جمع بندی یافته ها

پژوهش حاضر به طراحی و معرفی یک سیستم هوشمند برای کشف محصولات ترند با اتکا بر تحلیل داده های جستجوی کاربران پرداخت. نتایج نشان داد که کوئری های جستجو، به شرط پردازش صحیح و تحلیل مبتنی بر توالی زمانی، قدرتمندترین ابزار برای پیش بینی رفتار بازار هستند. ترکیب مدل های تعبیه کلمات برای درک معنایی زبان فارسی و شبکه های بازگشتی LSTM برای مدل سازی تغییرات زمانی، چارچوبی کارآمد، دقیق و مقیاس پذیر برای پلتفرم های تجارت الکترونیک فراهم آورد. این سیستم گذار از مدیریت انفعالی به مدیریت پیش دستانه (Proactive) را در فضای کسب وکارهای آنلاین ممکن می سازد.

۶-۲. کاربردهای عملی

این چارچوب می تواند به طور مستقیم در پلتفرم های مارکت پلیس، موتورهای جستجوی کالا و سیستم های مقایسه قیمت مورد استفاده قرار گیرد. تیم های بازاریابی می توانند از این بینش ها برای طراحی کمپین های کلیکی (PPC) با هزینه کمتر و نرخ کلیک بالاتر استفاده کنند، زیرا کلمات کلیدی در مراحل اولیه ترند، معمولا رقابت کمتری دارند. همچنین، تیم های زنجیره تامین می توانند از آن برای مدیریت هوشمند انبارها بهره ببرند.

۶-۳. پیشنهاد برای پژوهش های آینده

برای توسعه این خط پژوهشی در آینده، پیشنهادهای زیر ارائه می گردد:

۱. ادغام داده های چندرسانه ای: تحلیل جستجوهای تصویری کاربران (Visual Search) و ترکیب آن با جستجوهای متنی برای درک بهتر محصولات مد و پوشاک.

۲. تحلیل گراف دانش: ساخت یک گراف دانش از محصولات، برندها و نیازهای کاربران تا سیستم بتواند علاوه بر کشف ترند، علل شکل گیری آن را نیز توجیه کند (Explainable AI).

۳. تزریق داده های شبکه های اجتماعی: افزودن یک لایه پردازشی برای دریافت سیگنال های هشتگ ها در شبکه های اجتماعی همگام با جستجوهای درون سایتی، جهت فیلتر کردن نویزها و افزایش دقت پیش بینی.

۷. منابع

Chen, X., & Wang, Y. (2022). Time-series forecasting of consumer demand in e-commerce using hybrid machine learning models. Journal of Business Research, 142, 345-358.
Hosseini, M., & Moradi, P. (2022). Deep learning-based named entity recognition for Persian e-commerce queries. Information Processing & Management, 59(3), 102911.
Kumar, A., & Singh, R. (2020). Trend analysis and demand forecasting using big data analytics in retail. International Journal of Information Management, 50, 240-251.
Liu, H., Zhao, X., & Sun, Y. (2023). LSTM-based predictive analytics for product trend discovery in online marketplaces. Expert Systems with Applications, 213, 118940.
Rezaei, S., Ahmadi, H., & Karimi, A. (2024). Beyond recommendations: Trend discovery and long-tail exploration in digital markets. Electronic Commerce Research and Applications, 61, 101298.
Zhang, L., Li, J., & Chen, M. (2021). Mining search engine logs for early detection of consumer trends. Decision Support Systems, 148, 113592.
Alizadeh, F., & Ghasemi, R. (2023). Natural language processing for Persian text: Challenges and practical solutions in e-commerce. Journal of Artificial Intelligence Research, 76, 411-435.
Wu, C., Huang, Z., & Lin, T. (2021). A deep temporal neural network framework for proactive supply chain management. Computers & Industrial Engineering, 156, 107255.
Patel, D., & Sharma, K. (2020). Analyzing search intent for dynamic pricing and inventory management. Journal of Retailing and Consumer Services, 54, 102044.
Wang, Q., Zhang, Y., & Liu, Z. (2019). E-commerce product recommendation using temporal search data and semantic analysis. IEEE Access, 7, 128456-128467.

یادگیری عمیق پردازش زبان طبیعی هوش مصنوعی،رفتار مصرف کننده، استراتژی بازاریابی، تجارت الکترونیک، شخصی سازی استودیوی هوش مصنوعی رهانیک مهندس رها حسن آبادی

یادداشت قبلی

کاربرد مدل های گرافی در تحلیل ارتباط بین محصولات در مارکت پلیس های دیجیتال؛ رویکردی مبتنی بر تحلیل شبکه و سیستم های توصیه گر