شناسایی متن در تصاویر صحنه طبیعی یکی از مهم ترین ملزومات برای فهم اکثر اپلیکیشن های چند رسانه ای مبتنی بر محتوا می باشد. در این مقاله ابتدا یک روش ساده و موثر برای شناسایی متن در تصاویر صحنه طبیعی ارایه شده است که MSERs توسط الگوریتم V-MSER از کانال های G,H,S,O1,O2 به عنوان مولفه های کاندید استخراج می شود. از آنجا که متن شامل کاراکترهای کاندید است یک مدل مبتنی بر فیلد تصادفی مارکوف برای استفاده از ارتباط بین کاراکترها طراحی شده است. سپس برای فیلتر کردن مولفه های غیرمتنی یک مجموعه شامل یک شمای فیلترکردن دو لایه ای طراحی شده است. اکثر مولفه های غیرمتنی می توانند توسط لایه اول شمای فیلترکردن فیلتر شوند. لایه دوم شمای فیلترکردن، یک طبقه بند ادابوست است که با ویژگی های فشردگی، واریانس افقی، واریانس عمودی و نسبت ابعاد آموزش داده شده است. سپس تنها چهار ویژگی ساده برای تولید جفت های مولفه اتخاذ می شوند. و در آخر طبق شباهت جهت جفت های مولفه، آن جفت هایی که جهت یکسان دارند در یک خط متن ادغام می شوند.در روش دوم نیز یک روش برای طبقه بندی و بازیابی تصاویر صحنه طبیعی ارایه شده است که روی طبقه بندی مکان های تجاری و
بازیابی لوگو تمرکز می کند. این روش از محتوای متنی در تصاویر برای طبقه بندی دانه ای مکان های تجاری و
بازیابی لوگو استفاده می کند. برخلاف روش بالا از اهمیت کلمه [به جای کاراکتر] استفاده می کند و نشان داده می شود که سرنخ های متنی سطح کلمه، کاراتر از سرنخ های متنی سطح کاراکتر است و سرنخ های متنی سطح کلمه ارایه شده، بهتر از سرنخ های متنی سطح کاراکتر پیاده سازی دنیای واقعی انجام می شود. از یک روش جعبه کلمه های پیشنهادی بدون نظارت استفاده می شود که بهrecall شناسایی پیاده سازی دنیای واقعی کلمه می رسد