بهبود مدل WAV۲VEC برای تشخیص خودکار مکالمه فارسی

Publish Year: 1403
نوع سند: مقاله کنفرانسی
زبان: Persian
View: 16

This Paper With 17 Page And PDF Format Ready To Download

  • Certificate
  • من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این Paper:

شناسه ملی سند علمی:

ITCT23_053

تاریخ نمایه سازی: 1 شهریور 1403

Abstract:

در فناوری های دنیای امروز، تشخیص خودکار مکالمه یکی از زمینه های بسیار حیاتی در حوزه پردازش مکالمه محسوب می شود تشخیص مکالمه ی خودکار به عنوان یکی از مهم ترین زمینه های هوش مصنوعی ، امکان تشخیص و تفسیر مکالمه انسان را توسط کامپیوترها فراهم می کند. این فناوری برای انجام وظایف مختلفی از جمله ترجمه زنده، سیستم های پاسخ گویی به صدا و ابزارهای تایپ صوتی استفاده می شود. سیستم vec۲wav، به عنوان یکی از پیشروهای اخیر در حوزه سخن شناسایی خودکار، با بهرهگیری از مدلهای عمیق یادگیری ماشین و یادگیری انتقالی ، توانایی بالایی در تشخیص و ترجمه مکالمه انسانی را به متن دارد. این سیستم مبتنی بر مدلهای تبدیل اندازههای طیفی صوت به متن بوده و با استفاده از دادههای آموزشی بزرگ، می تواند بهبود چشمگیری در نرخ خطا در تبدیل مکالمه به متن داشته باشد. در این پژوهش هدف توسعه و بهینه سازی کد سیستم vec۲wav به منظور کاهش نرخ خطا در تبدیل مکالمه به متنمی باشد. با استفاده از مجموعه داده ۱۱ Common Voice، نتایج این تحقیق نشان می دهد که با بهرهگیری از تکنولوژی vec۲wav، نرخ خطای تبدیل مکالمه به متن به طور معناداری از (۱۲.۳۰%) به (%۰۱۸.۲۸) کاهش یافته که کاهش قابل توجهی از درصد خطای کلمه است که باعث می شود تشخیص خودکار مکالمه با دقت بالاتری انجام شود.

Authors

فرشاد بیگی هرچگانی

گروه کامپیوتر، دانشگاه شهید اشرفی اصفهانی

ابراهیم نصراصفهانی

گروه کامپیوتر، دانشگاه شهید اشرفی اصفهانی

شکوفه یراقی

گروه کامپیوتر، دانشگاه شهید اشرفی اصفهانی

پریا بهرامی

گروه کامپیوتر، دانشگاه شهید اشرفی اصفهانی