متن کاوی در سازمان های دانش محور

31 فروردین 1403 - خواندن 5 دقیقه - 79 بازدید



متن کاوی چیست؟

متن کاوی که به طور گسترده در سازمان های دانش محور استفاده می شود، فرآیند بررسی مجموعه های بزرگی از اسناد برای کشف اطلاعات جدید یا کمک به پاسخگویی به سوالات تحقیقاتی خاص است.


متن کاوی حقایق، روابط و ادعاهایی را شناسایی می کند که در غیر این صورت در انبوه داده های بزرگ متنی مدفون می مانند. پس از استخراج، این اطلاعات به یک فرم ساختاریافته تبدیل می شود که می تواند بیشتر مورد تجزیه و تحلیل قرار گیرد، یا مستقیما با استفاده از جداول HTML خوشه ای، نقشه های ذهنی، نمودارها و غیره ارائه شود. متن کاوی از روش های مختلفی برای پردازش متن استفاده می کند که یکی از مهم ترین آنهاست. اینها پردازش زبان طبیعی (NLP) هستند.


داده های ساخت یافته ایجاد شده توسط متن کاوی را می توان در پایگاه های داده، انبارهای داده یا داشبوردهای هوش تجاری ادغام کرد و برای تجزیه و تحلیل توصیفی، تجویزی یا پیش بینی استفاده کرد.


پردازش زبان طبیعی (NLP) چیست؟

پردازش زبان طبیعی (NLP) به ماشین ها کمک می کند تا با شبیه سازی توانایی انسان برای درک، تفسیر و تولید زبان، اطلاعات متنی را بخوانند. هدف این برنامه این است که شکاف ارتباطات بین انسان و رایانه را با تسهیل یک رابط زبان طبیعی پر کند. جنبه کلیدی NLP درک زبان طبیعی است، که توانایی یک سیستم را برای "خواندن" یا "گوش دادن" - تشخیص و تعمیم معانی متنی موجود در عبارات متنی مختلف را توصیف می کند. یکی دیگر از جنبه های کلیدی و محبوب NLP، تولید زبان طبیعی است که هدف آن تولید بازنمایی های زبانی معنادار برای «گفتگو کردن» با انسان است. برنامه های محبوب فعال شده توسط NLP عبارتند از ربات های گفتگو، سیستم های پاسخگویی به پرسش، ابزارهای خلاصه سازی، خدمات ترجمه ماشینی، دستیارهای صوتی و غیره. 


استخراج اطلاعات از منابع بدون ساختار

به طور سنتی، روش های مبتنی بر قواعد زبانی و روش های یادگیری ماشینی مانند میدان شرطی تصادفی (CRF) برای کارهای مرتبط با درک زبان طبیعی استفاده می شوند. از سال 2017، انفجار مدل های ترانسفورماتور از BERT تا مدل های زبان بزرگ (LLM) مانند ChatGPT رخ داده است. این یک فرصت عالی برای ایجاد یک سیستم NLP هیبریدی قدرتمند است که فن آوری های مختلف را برای دستیابی به بهترین نتایج بسته به وظیفه مورد نیاز، ترکیب می کند.


سیستم های NLP امروزی می توانند مقادیر نامحدودی از داده های مبتنی بر متن را بدون خستگی و به روشی ثابت تجزیه و تحلیل کنند. آنها می توانند مفاهیم را در زمینه های پیچیده درک کنند و ابهامات زبان را رمزگشایی کنند تا حقایق و روابط کلیدی را استخراج کنند یا خلاصه ارائه کنند. با توجه به حجم عظیمی از داده های بدون ساختار که هر روز تولید می شود، از پرونده های الکترونیک سلامت (EHR) گرفته تا پست های رسانه های اجتماعی، این شکل از اتوماسیون برای تجزیه و تحلیل کارآمد داده های مبتنی بر متن بسیار مهم است.



یادگیری ماشینی، مدل های بزرگ زبان، و پردازش زبان طبیعی

یادگیری ماشینی یک فناوری هوش مصنوعی (AI) است که به سیستم ها توانایی یادگیری خودکار از الگوهای تعبیه شده در داده های موجود و پیش بینی داده های جدید را می دهد.


به طور سنتی، روش های یادگیری ماشینی به داده های آموزشی به خوبی نیاز دارند، با این حال، این معمولا منابعی داده ای متونی بدون ساختار هستند. مدل ترانسفورماتور تکاملی، BERT، ایده تنظیم دقیق را با گنجاندن یک مدل از قبل آموزش دیده در یک حوزه در فرآیند آموزش معرفی کرد، که این امکان را فراهم کرد تا میزان داده های آموزشی مورد نیاز برای وظایف متن کاوی به میزان قابل توجهی کاهش یابد.


اخیرا توانایی های چشمگیر مدل های زبان بزرگ (LLM) در درک زبان انسان و تولید متن واقع گرایانه، توجه کل جهان را به NLP جلب کرده است. LLM ها هنگام استفاده در موضوعات عمومی مانند مکالمه روزانه و بازنویسی توانایی زیادی از خود نشان داده اند، که بسیاری از سازمان های دانش محور LLM ها را در کاربردهای حوزه های تخصصی خود به کار می برند.


پزدازش زبان طبیعیمتن کاوی