لب خوانی از موضوعات محبوبی است که اخیرا0 بسیار مورد توجه قرار گرفته و میتواند کاربردهای متعددی مانند تشخیص گفتار در فیلمهای صامت، کمک به افراد ناشنوا و بیمارانی که مشکل تکلم دارند، کمک به شناسایی گفتار در محیطهای نویزی و.... داشته باشد. یک نکته مهم در خصوص لبخوانی آن است که دقت لب خوانی توسط انسان پایین و در سطح مطلوبی نیست. از طرفی دیگر، دقت سامانه های لب خوانی ماشینی نیز تا چند سال پیش پایین و در حد دقت انسان بوده اند. دو عامل بیان شده منجر به این شده که طراحی و پیاده سازی سامانه های لبخوان تاکنون رشد و گسترش زیادی نداشته باشند. خوشبختانه روشهای مبتنی بر شبکه های عصبی عمیق، جایگزین روشهای سنتی لبخوانی شده اند و در این حوزه، کارایی را به صورت بسیار مناسبی افزایش داده اند. با استفاده از این روشها، هم اکنون لبخوانی ماشینی به دقتی، بعضا0 تا بیش از 1,7 برابر لبخوانی انسانی دست پیدا کرده است. در این مطالعه، هدف طراحی یک سامانه کامل لب خوان در زبان فارسی و مبتنی بر استفاده از شبکه های عصبی عمیق، میباشد. در این راستا، ابتدا مجموعه داده بزرگ ومناسبی برای به کارگیری در شبکه های عصبی عمیق، فراهم کردیم. سپس یک مدل شبکه عمیق، تعریف کرده و آموزش دادیم. با توجه به کارهای انجام شده در زبان انگلیسی، رسیدن به دقت حدود 60% در داده های بدون محدودیت، مطلوب و مناسب است، که در این پژوهش به دقتی حدود 87% دست یافتیم.