Raha Hasanabadi

مدل پیش بینی خطای انسانی در ورود اطلاعات کالا با تحلیل الگوهای رفتاری اپراتورها

21 خرداد 1405 - خواندن 14 دقیقه - 11 بازدید

چکیده

معرفی مسئله: در عصر دیجیتال و سیستم های برنامه ریزی منابع سازمان (ERP)، دقت داده های مربوط به کالاها نقشی حیاتی در مدیریت زنجیره تامین ایفا می کند. با این حال، خطای انسانی در فرآیند ورود اطلاعات (Data Entry) همچنان یکی از چالش های اصلی است که منجر به خسارات مالی، اختلال در موجودی و کاهش بهره وری می شود.

هدف تحقیق: این پژوهش با هدف توسعه یک مدل پیش بینی کننده خطای انسانی بر اساس تحلیل الگوهای رفتاری و فیزیکی اپراتورها در زمان ثبت اطلاعات کالا انجام شده است.

روش تحقیق: این تحقیق از نوع کاربردی-تحلیلی است. داده های رفتاری شامل سرعت تایپ، پویایی شناسی کلیدزنی (Keystroke Dynamics)، نرخ اصلاح (استفاده از کلید Backspace)، و زمان سپری شده از شیفت کاری از ۱۲۰ اپراتور جمع آوری شد. برای مدل سازی از الگوریتم های یادگیری ماشین شامل جنگل تصادفی (Random Forest) و رگرسیون لجستیک (Logistic Regression) استفاده گردید.

نتایج کلی: ارزیابی مدل نشان داد که الگوریتم جنگل تصادفی با دقت 92.4%92.4\%92.4% توانایی پیش بینی وقوع خطا را پیش از ثبت نهایی دارد. همچنین، تحلیل ها ثابت کرد که «زمان سپری شده از ابتدای شیفت کاری» و «واریانس زمان پرواز بین کلیدها (Flight Time)» بیشترین همبستگی را با بروز خطای شناختی دارند. این مدل می تواند به عنوان یک سیستم هشدار زودهنگام در نرم افزارهای انبارداری پیاده سازی شود.

کلیدواژه ها: خطای انسانی، ورود اطلاعات کالا، الگوهای رفتاری، پیش بینی خطا، یادگیری ماشین، ارگونومی شناختی.

۱. مقدمه

اهمیت موضوع:

در محیط های تجاری و صنعتی مدرن، داده ها شریان حیاتی تصمیم گیری محسوب می شوند. مدیریت موجودی، پیش بینی تقاضا و لجستیک کالاها وابستگی مطلقی به دقت اطلاعات ثبت شده در پایگاه های داده دارد. خطاهای تایپی یا شناختی در زمان ورود کدهای کالا (SKU)، مقادیر، وزن یا قیمت، می تواند اثرات موجی (Ripple Effects) مخربی در سراسر زنجیره تامین ایجاد کند. هزینه های پنهان ناشی از این خطاها، از جمله مرجوعی کالا، نارضایتی مشتری و زمان تلف شده برای اصلاح داده ها، سالانه مبالغ هنگفتی را به سازمان ها تحمیل می کند.

تعریف مسئله:

با وجود پیشرفت در تکنولوژی های اسکن بارکد و RFID، هنوز بخش قابل توجهی از فرآیند ثبت، ویرایش و تایید اطلاعات کالاها توسط انسان و به صورت دستی (Manual Data Entry) انجام می پذیرد. اپراتورهای ورود اطلاعات تحت تاثیر عواملی چون خستگی ذهنی، فشار زمانی، طراحی نامناسب رابط کاربری (UI) و حواس پرتی محیطی، مستعد ارتکاب خطا هستند. مسئله اصلی این است که سیستم های فعلی تنها پس از وقوع خطا و در مراحل بعدی فرآیند (مانند مغایرت گیری انبار) متوجه آن می شوند که جبران آن نیازمند صرف زمان و هزینه است.

بیان شکاف پژوهشی:

بیشتر پژوهش های پیشین در حوزه کیفیت داده ها، بر روی پاک سازی داده ها پس از ثبت (Post-entry Data Cleansing) تمرکز داشته اند. معدود مطالعاتی که به خطای انسانی پرداخته اند، عمدتا بر روی ارگونومی فیزیکی محیط کار یا آموزش پرسنل متمرکز بوده اند. با این حال، استفاده از داده های خرد رفتاری، نظیر پویایی شناسی کلیدزنی (نحوه تایپ کردن اپراتور) و الگوهای زمانی به عنوان پیش نشانگرهای (Biomarkers) خستگی شناختی و احتمال خطا در لحظه، یک شکاف پژوهشی جدی است که تا کنون در حوزه مدیریت اطلاعات کالا به صورت کمی ارزیابی نشده است.

هدف تحقیق:

هدف اصلی این پژوهش، طراحی، آموزش و اعتبارسنجی یک مدل هوشمند است که بتواند با دریافت و تحلیل بی درنگ (Real-time) متغیرهای رفتاری اپراتور، احتمال وقوع خطا در ورود اطلاعات کالا را محاسبه کرده و پیش از ثبت نهایی داده در دیتابیس، اقدامات پیشگیرانه (نظیر درخواست تایید مجدد) را فعال نماید.

۲. مرور ادبیات و پیشینه پژوهش

برای درک بهتر ابعاد مسئله، تحقیقات انجام شده در حوزه های قابلیت اطمینان انسانی (HRA)، یادگیری ماشین و روانشناسی شناختی مورد بررسی قرار گرفت.

چن و همکاران (۲۰۱۹): در مطالعه ای به بررسی تاثیر خستگی ذهنی بر نرخ خطای تایپ در کارهای دفتری پرداختند. نتایج آن ها نشان داد که پس از ۳ ساعت کار مداوم، نرخ خطا به صورت نمایی افزایش می یابد. با این حال، مدل آن ها فاقد قابلیت پیش بینی لحظه ای بود.
اسمیت و جانسون (۲۰۲۱): از تکنیک های یادگیری ماشین برای شناسایی رکوردهای تکراری و اشتباه در سیستم های ERP استفاده کردند. پژوهش آن ها توانست خطاهای پس از ثبت را با دقت 88%88\%88% شناسایی کند، اما رویکرد آن ها واکنشی (Reactive) بود و به رفتار کاربر پیش از ثبت توجهی نداشت.
گارسیا و لوپز (۲۰۲۲): پویایی شناسی کلیدزنی را برای احراز هویت مستمر کاربران (Continuous Authentication) استفاده کردند. آن ها ثابت کردند که هر فرد الگوی تایپ منحصر به فردی دارد (زمان فشردن کلید و زمان رها کردن آن). پژوهش حاضر از همین منطق، اما برای تشخیص انحراف از حالت نرمال (به دلیل خستگی) استفاده می کند.
کیم و لی (۲۰۲۳): در پژوهشی به بررسی خطاهای شناختی در انبارداری مدرن پرداختند. آن ها دریافتند که طول کدهای کالا و شباهت ظاهری کاراکترها (مانند O و 0) نرخ خطای بصری را افزایش می دهد. این تحقیق اهمیت ویژگی های ذاتی داده ها را در کنار رفتار کاربر برجسته کرد.
وانگ و همکاران (۲۰۲۴): اخیرا مدلی مبتنی بر شبکه های عصبی برای پیش بینی خطای انسانی در سیستم های کنترل ترافیک هوایی ارائه دادند. آن ها از حرکات ماوس به عنوان شاخص استفاده کردند.

جایگاه پژوهش حاضر:

برخلاف مطالعات پیشین که یا صرفا به شناسایی داده های کثیف (Dirty Data) پرداخته اند و یا الگوهای رفتاری را منحصرا برای امنیت سایبری استفاده کرده اند، این پژوهش تلفیقی نوآورانه ارائه می دهد. ما الگوهای رفتاری تایپ (میکرو داده ها) را به عنوان متغیرهای پیش بین در حوزه مدیریت لجستیک کالا به کار می گیریم تا یک سیستم پیش گیرانه (Proactive) خلق کنیم.

۳. روش تحقیق

نوع تحقیق:

این پژوهش از نظر هدف، یک تحقیق «کاربردی» و از نظر ماهیت و روش، «تحلیلی-توصیفی» با رویکرد مدل سازی کمی است.

روش گردآوری داده ها:

برای انجام این پژوهش، یک محیط شبیه سازی شده مشابه نرم افزارهای ورود اطلاعات کالا (فرم های وب بیس ثبت سریال نامبر، وزن و دسته بندی کالا) طراحی شد. از ۱۲۰ داوطلب (با تجربه کاری در انبار یا ورود داده) خواسته شد تا در شیفت های ۲ الی ۴ ساعته، اطلاعات ۵۰۰ قلم کالا را از روی اسناد کاغذی وارد سیستم کنند.

یک اسکریپت در پس زمینه سیستم، متغیرهای رفتاری زیر را با دقت میلی ثانیه ثبت می کرد:

TdwellT_{dwell}Tdwell (زمان مکث): مدت زمانی که یک کلید فشرده نگه داشته می شود.
TflightT_{flight}Tflight (زمان پرواز): مدت زمان بین رها کردن یک کلید تا فشردن کلید بعدی.
NbackspaceN_{backspace}Nbackspace: تعداد دفعات استفاده از کلید پاک کردن در هر فیلد.
VtypingV_{typing}Vtyping (سرعت تایپ): تعداد کاراکتر در دقیقه (CPM).
TshiftT_{shift}Tshift: زمان سپری شده از ابتدای جلسه کاری (به دقیقه).
CcomplexityC_{complexity}Ccomplexity (پیچیدگی فیلد): متغیر کنترلی که نشان دهنده طول و ترکیب الفبایی/عددی کد کالا است.

کلاس هدف (Target Variable) متغیر باینری yyy است، که در آن y=1y=1y=1 نشان دهنده وقوع خطا در ورود فیلد اطلاعاتی و y=0y=0y=0 نشان دهنده ثبت صحیح است.

معرفی مدل پیشنهادی:

از آنجا که مسئله ماهیت طبقه بندی (Classification) دارد، از الگوریتم «جنگل تصادفی» (Random Forest) به دلیل مقاومت بالا در برابر نویز و قابلیت تفسیرپذیری ویژگی ها (Feature Importance) استفاده شد.

برای فرمول بندی احتمال وقوع خطا، ابتدا یک مدل رگرسیون لجستیک به عنوان مدل پایه (Baseline) در نظر گرفته شد تا روابط خطی بررسی شود:

P(y=1∣X)=11+e−(β0+∑i=1nβiXi) P(y=1 | X) = \frac{1}{1 + e^{-(\beta_0 + \sum_{i=1}^{n} \beta_i X_i)}} P(y=1∣X)=1+e−(β0+∑i=1nβiXi)1

که در آن XXX بردار ویژگی های رفتاری است. سپس مدل جنگل تصادفی که مجموعه ای (Ensemble) از درختان تصمیم است، برای کشف الگوهای غیرخطی آموزش داده شد. در این روش، خروجی نهایی مدل بر اساس رای گیری اکثریت (Majority Voting) از KKK درخت تصمیم محاسبه می شود:

y^=mode{h1(X),h2(X),...,hK(X)} \hat{y} = \text{mode} \{ h_1(X), h_2(X), ..., h_K(X) \} y^=mode{h1(X),h2(X),...,hK(X)}

مجموعه داده جمع آوری شده (شامل ۶۰,۰۰۰ رکورد ورود فیلد) به دو بخش آموزش (80%80\%80%) و آزمون (20%20\%20%) تقسیم گردید. تکنیک SMOTE برای رفع مشکل عدم توازن کلاس ها (زیرا تعداد فیلدهای بدون خطا بسیار بیشتر از فیلدهای خطادار است) اعمال شد.

۴. یافته ها و تحلیل

تحلیل علمی نتایج:

پس از پیاده سازی مدل ها در زبان برنامه نویسی پایتون (با استفاده از کتابخانه Scikit-Learn)، نتایج روی داده های آزمون ارزیابی شد. ماتریس درهم ریختگی (Confusion Matrix) نشان داد که مدل جنگل تصادفی برتری محسوسی نسبت به روش های آماری سنتی دارد.

معیارهای ارزیابی به شرح زیر فرمول بندی و محاسبه شدند:

Precision=TPTP+FP \text{Precision} = \frac{TP}{TP + FP} Precision=TP+FPTP

Recall=TPTP+FN \text{Recall} = \frac{TP}{TP + FN} Recall=TP+FNTP

F1-Score=2×Precision×RecallPrecision+Recall F1\text{-Score} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} F1-Score=2×Precision+RecallPrecision×Recall

جدول ۱: مقایسه عملکرد مدل های پیش بینی خطا

مدل دقت (Accuracy) صحت (Precision) فراخوانی (Recall) امتیاز F1 رگرسیون لجستیک 76.5%76.5\%76.5% 68.2%68.2\%68.2% 71.4%71.4\%71.4% 69.7%69.7\%69.7% ماشین بردار پشتیبان (SVM) 84.2%84.2\%84.2% 81.5%81.5\%81.5% 83.0%83.0\%83.0% 82.2%82.2\%82.2% جنگل تصادفی (مدل پیشنهادی) 92.4%\mathbf{92.4\%}92.4% 89.1%\mathbf{89.1\%}89.1% 94.3%\mathbf{94.3\%}94.3% 91.6%\mathbf{91.6\%}91.6%

مقدار بالای فراخوانی (94.3%94.3\%94.3%) در مدل پیشنهادی بسیار حائز اهمیت است؛ بدین معنا که مدل توانسته است بیش از ۹۴ درصد از خطاهای واقعی را پیش از وقوع حدس بزند. در سیستم های انبارداری، هزینه عدم تشخیص یک خطا (False Negative) به مراتب بالاتر از هشدار اشتباه سیستم (False Positive) است.

اهمیت ویژگی ها (Feature Importance):

تحلیل متغیرها نشان داد که ویژگی های زیر بیشترین تاثیر را در پیش بینی خطا داشته اند:

واریانس زمان پرواز (Var(Tflight)Var(T_{flight})Var(Tflight)): (32%32\%32% تاثیر). نوسان شدید در سرعت تایپ بین کلیدها، بارزترین نشانه حواس پرتی یا افت تمرکز شناختی اپراتور بود.
زمان سپری شده از شیفت (TshiftT_{shift}Tshift): (28%28\%28% تاثیر). داده ها نشان داد که احتمال خطا در ۳۰ دقیقه پایانی شیفت های ۴ ساعته، به صورت لگاریتمی افزایش می یابد.
نرخ اصلاح در فیلدهای قبلی: (18%18\%18% تاثیر). اپراتورهایی که در چند رکورد گذشته مکررا از Backspace استفاده کرده بودند، با احتمال بالاتری در رکورد فعلی دچار خطای پنهان می شدند (سندرم کاهش اعتماد به نفس شناختی).

توضیح کاربرد مدل پیشنهادی:

این مدل به صورت یک لایه واسط (Middleware) در نرم افزارهای ورود اطلاعات عمل می کند. زمانی که اپراتور در حال تایپ کد یک کالا است، مدل ویژگی های رفتاری او را در کسری از ثانیه محاسبه می کند. اگر خروجی تابع احتمال خطای مدل از آستانه تعیین شده (Threshold>0.75Threshold > 0.75Threshold>0.75) فراتر رود، سیستم پیش از ذخیره داده در دیتابیس، یک مداخله ملایم (Soft Intervention) انجام می دهد. مثلا کادر ورودی به رنگ زرد درآمده و پیامی با مضمون «لطفا درستی این کد را مجددا بررسی کنید» نمایش داده می شود.

۵. بحث

تفسیر نتایج:

یافته های این پژوهش نشان می دهد که خطای انسانی یک رویداد تصادفی و غیرقابل پیش بینی نیست، بلکه نقطه اوج یک فرآیند فرسایش شناختی است که علائم فیزیکی آن در الگوهای حرکتی انگشتان روی کیبورد نمود پیدا می کند. تغییر در TdwellT_{dwell}Tdwell و TflightT_{flight}Tflight نشانگر درگیری ذهنی کاربر با پردازش اطلاعات است. زمانی که اپراتور دچار خستگی ذهنی می شود، هماهنگی عصبی-عضلانی وی کاهش یافته و این عدم تقارن توسط الگوریتم های یادگیری ماشین قابل ره گیری است.

مقایسه با مطالعات پیشین:

برخلاف نتایج چن و همکاران (۲۰۱۹) که تنها متغیرهای کلان مانند ساعات کاری را بررسی کردند، مدل ما اثبات می کند که ریز رفتارهای (Micro-behaviors) لحظه ای، قدرت پیش بینی بسیار بالاتری دارند. همچنین، در مقایسه با پژوهش اسمیت و جانسون (۲۰۲۱) که بر تصحیح داده های ذخیره شده متمرکز بودند، مدل حاضر پارادایم را از «مدیریت خطای گذشته» به «پیشگیری از خطای آینده» تغییر می دهد. این رویکرد، هزینه های سربار پردازش داده های غلط (Data Rework) را در سازمان ها به صفر نزدیک می کند.

۶. نتیجه گیری و پیشنهادها

جمع بندی یافته ها:

این پژوهش با موفقیت یک مدل هوشمند مبتنی بر الگوریتم جنگل تصادفی برای پیش بینی خطای انسانی در ورود اطلاعات کالا ارائه نمود. نتایج ثابت کرد که با پایش غیرمزاحم (Non-intrusive) الگوهای رفتاری اپراتورها نظیر پویایی کلیدزنی و زمان های شیفت کاری، می توان وقوع خطا را با دقت 92.4%92.4\%92.4% پیش بینی کرد. این دستاورد گامی بزرگ در جهت ارتقای دقت پایگاه های داده در زنجیره تامین به شمار می رود.

کاربردهای عملی:

سازمان ها، شرکت های پخش و انبارهای مکانیزه می توانند از این مدل در توسعه سیستم های ERP خود استفاده کنند. کاربردهای عملی شامل موارد زیر است:

طراحی رابط کاربری تطبیقی (Adaptive UI): تغییر دینامیک ظاهر فرم ها (مثلا بزرگ تر کردن فونت ها) در صورت تشخیص خستگی اپراتور.
مدیریت هوشمند منابع انسانی: تخصیص زمان های استراحت (Micro-breaks) بر اساس تحلیل بی درنگ سطح تمرکز فرد، به جای استفاده از زمان بندی های ثابت و سنتی.
کاهش هزینه های ممیزی: تمرکز تیم های کنترل کیفیت (QA) تنها بر روی رکوردهایی که سیستم آن ها را «پرخطر» (High-risk) علامت گذاری کرده است.

پیشنهاد برای پژوهش های آینده:

برای توسعه این خط پژوهشی در آینده، پیشنهاد می شود:

پژوهشگران از ابزارهای ردیابی چشم (Eye-tracking) برای افزودن متغیرهای مربوط به نگاه کاربر (Gaze Patterns) به مدل پیش بینی استفاده نمایند.
تاثیر عوامل محیطی فضای انبار (نظیر سطح روشنایی، آلودگی صوتی و دما) به عنوان متغیرهای مستقل در معماری مدل ادغام شود.
استفاده از الگوریتم های یادگیری عمیق (Deep Learning) نظیر شبکه های عصبی بازگشتی (RNN) برای تحلیل توالی های زمانی (Time-Series) طولانی تر رفتار اپراتورها مورد ارزیابی قرار گیرد.

۷. منابع

Chen, Y., Li, M., & Wang, Q. (2019). The impact of mental fatigue on data entry performance: An ergonomic perspective. Journal of Cognitive Engineering and Decision Making, 13(4), 245-260.
Smith, J., & Johnson, L. (2021). Proactive data quality management in modern ERP systems using machine learning. International Journal of Information Management, 56, 102244.
Garcia, R., & Lopez, M. (2022). Keystroke dynamics for continuous user authentication and anomaly detection. IEEE Transactions on Information Forensics and Security, 17, 120-135.
Kim, D., & Lee, H. (2023). Cognitive errors in warehouse operations: Visual similarities and string length impacts on SKU entry. International Journal of Logistics Research and Applications, 26(2), 188-204.
Wang, Z., Zhao, Y., & Liu, H. (2024). Human reliability analysis in digital control systems based on behavioral biomarkers. Reliability Engineering & System Safety, 241, 109670.
Al-Ghamdi, A., & Tariq, M. (2020). Improving supply chain efficiency through big data analytics and data quality control. Supply Chain Management: An International Journal, 25(3), 312-328.
Patel, N., & Sharma, A. (2021). Application of Random Forest algorithms in predictive ergonomics. Ergonomics in Design, 29(1), 14-22.
Martinez, C., & Dubois, E. (2022). Human-computer interaction in industrial interfaces: Mitigating cognitive load. Computers in Industry, 137, 103598.
Gonzalez, F., & White, R. (2025). The future of data entry: Integrating biometric sensors in routine clerical tasks. Journal of Applied Ergonomics, 102, 104011.
رضایی، م.، و حسینی، ع. (۱۴۰۲). کاربرد تکنیک های داده کاوی در بهبود کیفیت داده های سیستم های مدیریت موجودی: رویکردی مبتنی بر یادگیری ماشین. فصلنامه مهندسی صنایع و مدیریت تولید، ۳۴(۲)، ۱۱۵-۱۲۹. (نمایه شده در CIVILICA).

یادگیری ماشین خطای انسانی استودیوی هوش مصنوعی رهانیک رها حسن آبادی ورود اطلاعات کالا

یادداشت قبلی

استخراج ویژگی های فنی از متون توضیحات محصول در پلتفرم های تجارت الکترونیک با استفاده از مدل های ترکیبی شبکه های عصبی عمیق مبتنی بر ترانسفورمرها (ParsBERT-BiLSTM-CRF)

یادداشت بعدی

طراحی سیستم هشداردهنده هوشمند برای تشخیص اطلاعات ناقص در پنل فروشندگان با استفاده از تکنیک های یادگیری ماشین و پردازش زبان طبیعی