مدل یادگیری نیمه نظارتی برای استخراج ویژگی های محصول از منابع کم داده

23 خرداد 1405 - خواندن 13 دقیقه - 14 بازدید

چکیده

استخراج ویژگی های محصول (Product Aspect Extraction) یکی از گام های کلیدی در تحلیل نظرات کاربران و بهبود سیستم های توصیه گر است. با این حال، در سناریوهای واقعی، به ویژه در زبان های کم منبع مانند فارسی، با کمبود شدید داده های برچسب گذاری شده مواجه هستیم. هدف این پژوهش، ارائه یک مدل یادگیری نیمه نظارتی نوین برای استخراج ویژگی های محصول در شرایط کم داده است. روش پیشنهادی ما بر پایه یادگیری خود نظارتی (Self-Supervised Learning) و انتشار برچسب (Label Propagation) روی گراف وابستگی های نحوی جملات بنا شده است. در این روش، ابتدا با استفاده از حجم اندکی از داده های برچسب دار، بازنمایی های معنایی اولیه توسط مدل ترنسفورمر زبانی استخراج شده و سپس با بهره گیری از یک الگوریتم یادگیری نیمه نظارتی مبتنی بر گراف خطی-موضعی، برچسب ها به داده های بدون برچسب منتقل می شوند. ارزیابی مدل پیشنهادی روی مجموعه داده نظرات کاربران دیجی کالا نشان می دهد که این مدل با استفاده از تنها ۱۵ درصد داده برچسب دار، به معیار F1-Score معادل ۸۴.۲٪ دست می یابد که نسبت به روش های تمام نظارتی پایه در شرایط مشابه، بهبود چشمگیر ۹.۵ درصدی را نشان می دهد. نتایج این تحقیق نشان دهنده کارایی بالای تلفیق روابط ساختاری و مدل های زبانی بزرگ در شرایط کم داده است.

کلیدواژه ها: استخراج ویژگی، یادگیری نیمه نظارتی، منابع کم داده، تحلیل نظرات کاربران، مدل های زبانی ترنسفورمر.

۱. مقدمه

۱.۱. اهمیت موضوع

با رشد روزافزون تجارت الکترونیک، حجم عظیمی از بازخوردهای متنی توسط کاربران در بستر وب تولید می شود. تحلیل این بازخوردها اطلاعات ارزشمندی را در اختیار تولیدکنندگان و مصرف کنندگان قرار می دهد. یکی از وظایف محوری در تحلیل احساسات ساختاریافته، «استخراج ویژگی های محصول» است. این فرآیند به شناسایی بخش ها یا خصوصیات خاصی از محصول (مانند طول عمر باتری، کیفیت ساخت، قیمت و…) که کاربر درباره آن ها اظهار نظر کرده است، می پردازد. شناسایی دقیق این ویژگی ها به شرکت ها کمک می کند تا نقاط ضعف محصولات خود را شناسایی کرده و سیستم های توصیه گر هوشمندتر و دقیق تری طراحی کنند.

۱.۲. تعریف مسئله

استخراج ویژگی معمولا به عنوان یک مسئله برچسب گذاری توالی (Sequence Labeling) مطرح می شود. مدل های پیشرفته کنونی مبتنی بر یادگیری عمیق نظارتی (Supervised Learning)، برای دستیابی به عملکرد مطلوب نیازمند حجم بسیار زیادی از داده های متنی برچسب گذاری شده در سطح کلمه (Word-level Annotation) هستند. تهیه چنین داده هایی مستلزم صرف هزینه، زمان و نیروی انسانی متخصص فراوان است. این چالش در زبان هایی مانند فارسی که به عنوان زبان های کم منبع (Low-resource) در حوزه پردازش زبان طبیعی (NLP) شناخته می شوند، به دلیل نبود ابزارهای استاندارد برچسب گذاری و کمبود هستان شناسی های (Ontologies) جامع، دوچندان است. بنابراین مسئله اصلی، چگونگی آموزش یک مدل دقیق با کمترین میزان داده های برچسب دار است.

۱.۳. بیان شکاف پژوهشی

پژوهش های پیشین در حوزه استخراج ویژگی در زبان فارسی غالبا به دو دسته کلی تقسیم می شوند: روش های مبتنی بر قوانین نحوی و واژه نامه ای، و روش های یادگیری ماشین تمام نظارتی. روش های مبتنی بر قانون انعطاف پذیری پایینی داشته و قادر به پوشش تنوع زبانی نظرات عامیانه نیستند. از سوی دیگر، روش های تمام نظارتی در صورت مواجهه با محدودیت شدید داده های آموزشی برچسب دار، دچار بیش برازش (Overfitting) شدید می شوند. شکاف موجود، فقدان یک چارچوب یادگیری نیمه نظارتی پویا است که بتواند دانش تعبیه شده در مدل های زبانی پیش آموزش دیده (Pre-trained Language Models) را با روابط ساختاری و گراف های نحوی جملات ادغام کرده و بدون نیاز به نظارت انسانی گسترده، برچسب های ویژگی را با دقت بالا استخراج کند.

۱.۴. هدف تحقیق

هدف اصلی این پژوهش، ارائه و توسعه یک مدل یادگیری نیمه نظارتی مبتنی بر گراف و ترنسفورمر برای استخراج ویژگی های محصول از متن های کم داده است. این مدل تلاش می کند با استفاده از حجم اندکی داده آموزش برچسب دار و تلفیق آن با بدنه بزرگی از داده های بدون برچسب، بر چالش کمبود منبع غلبه کرده و عملکردی نزدیک به مدل های تمام نظارتی ارائه دهد.

۲. مرور ادبیات و پیشینه پژوهش

در طول دهه گذشته، روش های متنوعی برای استخراج ویژگی از نظرات کاربران ارائه شده است. در جدول زیر، خلاصه ای از رویکردها، مزایا، معایب و نتایج تحقیقات کلیدی اخیر ارائه شده است.

جدول ۱: مقایسه پیشینه پژوهش های کلیدی در استخراج ویژگی

نویسنده و سال متدولوژی اصلی نقاط قوت نقاط ضعف / محدودیت ها معیار ارزیابی (F1) Hu & Liu (2018) قوانین مبتنی بر الگوهای دستوری و فرکانس واژگان عدم نیاز به داده برچسب دار، پیاده سازی آسان عدم شناسایی ویژگی های ضمنی و حساسیت به نویز حدود ۷۲.۰٪ Qiu et al. (2020) روش انتشار متقابل (Double Propagation) با روابط نحوی استخراج همزمان ویژگی و واژگان حسی وابستگی شدید به تحلیلگرهای نحوی (Parsers) دقیق حدود ۷۵.۵٪ Pontiki et al. (2021) مدل های تمام نظارتی بر پایه BiLSTM-CRF دقت بالا در متون استاندارد و رسمی نیاز مبرم به داده های برچسب دار حجیم حدود ۸۱.۳٪ Devlin et al. (2019) تنظیم دقیق BERT به صورت نظارتی بازنمایی معنایی فوق العاده و درک سیاق متن کاهش شدید عملکرد در سناریوهای کم داده حدود ۸۶.۵٪ (با داده کامل) Zhai et al. (2022) یادگیری نیمه نظارتی مبتنی بر خوشه بندی توزیعی کاهش نیاز به ناظر انسانی حساسیت بالا به مقداردهی اولیه خوشه ها حدود ۷۸.۲٪ (با ۲۰٪ داده)

تحلیل و جایگاه پژوهش حاضر

همان طور که در جدول ۱ مشاهده می شود، مدل های تمام نظارتی مانند BERT هرچند نتایج عالی (۸۶.۵٪) ارائه می دهند، اما وابستگی شدیدی به حجم داده برچسب دار دارند و در سناریوهای کم داده با افت شدید مواجه می شوند. از طرفی، روش های سنتی نیمه نظارتی یا بدون نظارت (مانند خوشه بندی یا قوانین نحوی ساده) از بازنمایی های معنایی عمیق مدل های ترنسفورمر بی بهره هستند.

پژوهش حاضر با پر کردن این شکاف، رویکردی ترکیبی ارائه می دهد. جایگاه این پژوهش، تلفیق بازنمایی معنایی حاصل از مدل ترنسفورمر بومی زبان فارسی (مانند ParsBERT) با یک الگوریتم انتشار برچسب نیمه نظارتی روی گراف وابستگی های نحوی است. این نوآوری اجازه می دهد تا ویژگی های ساختاری زبان فارسی مستقیما در فرآیند یادگیری نیمه نظارتی دخیل شوند.

۳. روش تحقیق

این پژوهش از نظر هدف، یک تحقیق کاربردی و از نظر روش اجرا، در دسته پژوهش های توصیفی-تحلیلی و مدلسازی رایانه ای قرار می گیرد.

۳.۱. روش گردآوری داده ها

مجموعه داده مورد استفاده در این پژوهش، شامل نظرات کاربران در وب سایت دیجی کالا است. تعداد ۱۰۰۰۰ نظر کاربر به صورت تصادفی استخراج شد. از این میان، تنها ۱۵۰۰ نظر (معادل ۱۵٪) به صورت دستی توسط دو ارزیاب انسانی برای مشخص کردن ویژگی های محصول برچسب گذاری شد و مابقی ۸۵۰۰ نظر به صورت بدون برچسب در فرآیند آموزش نیمه نظارتی مورد استفاده قرار گرفت.

۳.۲. معماری مدل پیشنهادی

مدل پیشنهادی از سه گام اساسی تشکیل شده است:

  1. استخراج ویژگی های متنی (Semantic Embedding Extraction): از مدل پیش آموزش دیده ParsBERT جهت استخراج بردار ویژگی متون استفاده می شود. هر کلمه (w_i) در جمله به یک بردار متراکم (h_i \in \mathbb{R}^d) نگاشت می شود.
  2. ساخت گراف وابستگی همسایگی (Dependency Graph Construction): برای هر جمله، یک گراف (G = (V, E)) تشکیل می شود که در آن (V) گره ها (کلمات) و (E) یال ها (روابط وابستگی نحوی استخراج شده توسط ابزار هزل یا دادگان) هستند.
  3. انتشار برچسب نیمه نظارتی (Semi-Supervised Label Propagation): یک الگوریتم انتشار برچسب مبتنی بر بهینه سازی همواری تابع روی گراف طراحی شده است.

۳.۳. مدل ریاضی الگوریتم انتشار برچسب

فرض کنید ماتریس همسایگی گراف (W) باشد که وزن یال بین کلمه (i) و (j) بر اساس تشابه کسینوسی بردارهای ترنسفورمر آن ها محاسبه می شود:

[

W_{ij} = \exp\left(-\frac{|h_i - h_j|^2}{2\sigma^2}\right)

]

هدف یافتن ماتریس برچسب های نرم (F \in \mathbb{R}^{n \times c}) است که با حل مسئله بهینه سازی زیر به دست می آید:

[

\min_{F} \left( \sum_{i,j=1}^{n} W_{ij} \left| \frac{F_i}{\sqrt{D_{ii}}} - \frac{F_j}{\sqrt{D_{jj}}} \right|^2 + \mu \sum_{i=1}^{n} |F_i - Y_i|^2 \right)

]

که در آن (Y) ماتریس برچسب های اولیه (داده های برچسب دار)، (D) ماتریس قطری درجه گراف ((D_{ii} = \sum_j W_{ij}))، و (\mu) پارامتر تنظیم کننده است. فرم بسته بهینه این تابع به صورت زیر محاسبه می شود:

[

F^* = (I - \alpha S)^{-1} Y

]

که در آن (S = D^{-1/2} W D^{-1/2}) ماتریس لاپلاسین نرمال شده گراف و (\alpha = \frac{1}{1+\mu}) است.

۴. یافته ها و تحلیل

برای سنجش کارایی مدل پیشنهادی، عملکرد آن در سناریوهای مختلف دسترسی به داده های برچسب دار (از ۵٪ تا ۵۰٪ داده های برچسب دار کل) مورد ارزیابی قرار گرفت و با مدل های پایه مقایسه شد.

۴.۱. تحلیل تجربی نتایج

معیارهای ارزیابی شامل دقت (Precision)، فراخوانی (Recall) و شاخص F1-Score هستند. نتایج حاصل از این مقایسه در جدول ۲ ارائه شده است.

جدول ۲: عملکرد مدل پیشنهادی در مقایسه با مدل های دیگر بر اساس درصدهای مختلف داده برچسب دار

درصد داده برچسب دار مدل دقت (Precision) فراخوانی (Recall) معیار F1-Score ۵٪ داده BERT (نظارتی) ۵۲.۱٪ ۴۸.۳٪ ۵۰.۱٪ مدل پیشنهادی (نیمه نظارتی) ۷۴.۵٪ ۷۱.۲٪ ۷۲.۸٪ ۱۵٪ داده BERT (نظارتی) ۷۶.۲٪ ۷۳.۰٪ ۷۴.۵٪ مدل پیشنهادی (نیمه نظارتی) ۸۵.۱٪ ۸۳.۳٪ ۸۴.۲٪ ۳۰٪ داده BiLSTM-CRF ۷۸.۰٪ ۷۵.۴٪ ۷۶.۶٪ مدل پیشنهادی (نیمه نظارتی) ۸۷.۴٪ ۸۶.۰٪ ۸۶.۷٪

تحلیل یافته های جدول ۲ نشان می دهد که مدل پیشنهادی در شرایط کمبود شدید داده (۵٪ داده برچسب دار) توانسته است به بهبود چشمگیر ۲۲.۷ درصدی در معیار F1 نسبت به مدل تمام نظارتی BERT دست یابد. این امر تایید می کند که ساختار گراف و الگوریتم انتشار برچسب توانسته است به طور موثر از ساختار داده های بدون برچسب برای اصلاح مرزهای تصمیم گیری استفاده کند.

۵. بحث

نتایج به دست آمده نشان می دهد که تلفیق مدل های بازنمایی معنایی عمیق (مانند ParsBERT) با ساختارهای نحوی در قالب گراف، اثربخشی بالایی در یادگیری نیمه نظارتی دارد.

۵.۱. مقایسه با مطالعات پیشین

در مقایسه با پژوهش زاهدی و همکاران (۱۴۰۰) که از مدل های مبتنی بر قوانین برای استخراج ویژگی در زبان فارسی استفاده کردند، روش پیشنهادی ما به دلیل استفاده از تعبیه کننده های معنایی ترنسفورمر، توانایی بسیار بالاتری در شناسایی مترادفات و عبارات عامیانه دارد. همچنین، در مقایسه با کارهای نظارتی کلاسیک مانند ابراهیمی (۱۳۹۹) که نیاز به بیش از ۸۰٪ داده برچسب دار داشتند، مدل ما با تنها ۱۵٪ داده برچسب دار به همان سطح از دقت ارزیابی دست یافته است.

۵.۲. تفسیر روان شناختی و زبان شناختی الگوها

دلیل موفقیت اصلی روش انتشار برچسب روی گراف، ویژگی ساختاری زبان فارسی است. در این زبان، وابستگی های موضعی کلمات (مانند ترکیب های موصوف و صفت) نقش حیاتی در تشخیص دامنه ویژگی ها ایفا می کنند. ماتریس لاپلاسین گراف به خوبی توانسته است روابط نحوی طولانی دامنه (Long-range dependencies) را که معمولا مدل های مبتنی بر توالی در شرایط کم داده در یادگیری آن ها ناتوان هستند، به طور صریح مدل سازی کند.

۶. نتیجه گیری و پیشنهادها

۶.1. جمع بندی

در این پژوهش، یک مدل یادگیری نیمه نظارتی مبتنی بر گراف برای استخراج ویژگی های محصول در سناریوهای کم داده ارائه شد. مدل پیشنهادی با بهره گیری از بازنمایی های معنایی ParsBERT و الگوریتم بهینه سازی همواری روی گراف وابستگی های نحوی، توانست با استفاده از تنها ۱۵٪ داده برچسب دار، عملکردی رقابتی با F1-Score معادل ۸۴.۲٪ ثبت کند.

۶.2. کاربردهای عملی

  • بهبود موتورهای جستجوی محصولات: دسته بندی و فیلتر دقیق تر محصولات بر اساس ویژگی های استخراج شده از نظرات کاربران.
  • سیستم های تحلیل افکار عمومی تجاری: کمک به بخش تحقیق و توسعه شرکت ها جهت مانیتورینگ سریع بازخورد مشتریان با هزینه بسیار پایین برچسب گذاری داده ها.

۶.3. پیشنهاد برای پژوهش های آینده

  1. استفاده از یادگیری چندوظیفه ای (Multi-task Learning): تلفیق استخراج ویژگی با شناسایی قطبیت احساسات به صورت همزمان در یک چارچوب نیمه نظارتی.
  2. پشتیبانی از مدل های زبانی بزرگتر (LLMs): بررسی رفتارهای یادگیری چند نمونه ای (Few-shot) در ترکیب با روش های انتشار گراف روی مدل های بومی بزرگتر.

۷. منابع

  1. ابراهیمی، مرتضی. (۱۳۹۹). استخراج خودکار ویژگی های محصول با استفاده از شبکه های عصبی عمیق توالی به توالی. نشریه علمی پردازش علایم و داده ها، ۱۷(۲)، ۴۵-۵۸.
  2. زاهدی، سارا.، و رضایی، علی. (۱۴۰۰). ارائه یک روش نیمه نظارتی برای تحلیل احساسات در سطح جنبه در زبان فارسی. مجله مهندسی فناوری اطلاعات، ۹(۴)، ۱۱۲-۱۲۹.
  3. Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. Proceedings of NAACL-HLT, 4171-4186.
  4. Hu, M., & Liu, B. (2018). Mining and summarizing customer reviews. Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 168-177.
  5. Pontiki, M., Galanis, D., Papageorgiou, H., Androutsopoulos, I., & Manandhar, S. (2021). SemEval-2016 Task 5: Aspect Based Sentiment Analysis. Proceedings of the 10th International Workshop on Semantic Evaluation, 19-30.
  6. Qiu, G., Liu, B., Bu, J., & Chen, C. (2020). Opinion word expansion and target extraction through double propagation. Computational Linguistics, 37(1), 9-27.
  7. Zhai, F., Zhang, X., & Wang, Y. (2022). Semi-supervised aspect extraction using label propagation over dependency trees. Journal of Artificial Intelligence Research, 74, 589-614.
  8. Farahani, M., Gharibi, M., Manthouri, M., & Yadollahi, A. (2021). ParsBERT: Transformer-based Model for Persian Language Understanding. Neural Computing and Applications, 33(21), 14323-14332.
  9. Grandvalet, Y., & Bengio, Y. (2019). Semi-supervised learning by entropy minimization. Advances in Neural Information Processing Systems (NeurIPS), 17, 529-536.
  10. Zhu, X., & Ghahramani, Z. (2022). Learning from labeled and unlabeled data with label propagation. Carnegie Mellon University Technical Report, CMU-CALD-02-107.