بهبود مدل WAV۲VEC برای تشخیص خودکار مکالمه فارسی

فرشاد, بیگی هرچگانی; ابراهیم, نصراصفهانی; شکوفه, یراقی; پریا, بهرامی

بهبود مدل WAV۲VEC برای تشخیص خودکار مکالمه فارسی

عنوان مقاله: بهبود مدل WAV۲VEC برای تشخیص خودکار مکالمه فارسی
شناسه ملی مقاله: ITCT23_053
منتشر شده در بیست و سومین کنفرانس بین المللی فناوری اطلاعات، کامپیوتر و مخابرات در سال 1403

مشخصات نویسندگان مقاله:

فرشاد بیگی هرچگانی - گروه کامپیوتر، دانشگاه شهید اشرفی اصفهانی
ابراهیم نصراصفهانی - گروه کامپیوتر، دانشگاه شهید اشرفی اصفهانی
شکوفه یراقی - گروه کامپیوتر، دانشگاه شهید اشرفی اصفهانی
پریا بهرامی - گروه کامپیوتر، دانشگاه شهید اشرفی اصفهانی

خلاصه مقاله:

در فناوری های دنیای امروز، تشخیص خودکار مکالمه یکی از زمینه های بسیار حیاتی در حوزه پردازش مکالمه محسوب می شود تشخیص مکالمه ی خودکار به عنوان یکی از مهم ترین زمینه های هوش مصنوعی ، امکان تشخیص و تفسیر مکالمه انسان را توسط کامپیوترها فراهم می کند. این فناوری برای انجام وظایف مختلفی از جمله ترجمه زنده، سیستم های پاسخ گویی به صدا و ابزارهای تایپ صوتی استفاده می شود. سیستم vec۲wav، به عنوان یکی از پیشروهای اخیر در حوزه سخن شناسایی خودکار، با بهرهگیری از مدلهای عمیق یادگیری ماشین و یادگیری انتقالی ، توانایی بالایی در تشخیص و ترجمه مکالمه انسانی را به متن دارد. این سیستم مبتنی بر مدلهای تبدیل اندازههای طیفی صوت به متن بوده و با استفاده از دادههای آموزشی بزرگ، می تواند بهبود چشمگیری در نرخ خطا در تبدیل مکالمه به متن داشته باشد. در این پژوهش هدف توسعه و بهینه سازی کد سیستم vec۲wav به منظور کاهش نرخ خطا در تبدیل مکالمه به متنمی باشد. با استفاده از مجموعه داده ۱۱ Common Voice، نتایج این تحقیق نشان می دهد که با بهرهگیری از تکنولوژی vec۲wav، نرخ خطای تبدیل مکالمه به متن به طور معناداری از (۱۲.۳۰%) به (%۰۱۸.۲۸) کاهش یافته که کاهش قابل توجهی از درصد خطای کلمه است که باعث می شود تشخیص خودکار مکالمه با دقت بالاتری انجام شود.

کلمات کلیدی:

تشخیص مکالمه خودکار، یادگیری عمیق ، یادگیری انتقالی ، درصد خطای کلمه ، مدل vec۲.wav

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/2059684/