سلام به شما و همه
ممنونم از اظهار لطف شما. در رابطه با موارد مطرح شده چند نکته رو عرض میکنم خدمتتون:
۱- استفاده از دیتاستها و شبکههای عصبی مصنوعی پیشآموزشدیده یا اصطلاحاً Pretrained بسیار کمک کننده است چون بار محاسباتی بسیار بزرگی رو از پیش پای شما برمیداره. یعنی نیاز نیست که یک سیستم قدرتمند با GPU قوی و حافظهی بالا رو داشته باشید و به کار بگیرید. علاوه بر این نیاز به صرف زمان بالا برای آموزش شبکه هم وجود نداره.
۲- به جز استفاده از مورد ذکر شده در بالا برای پیشبرد هدف، چون مقصود ما تشخیص حروف و اعداد هست (وارد بحث کپچاهای تصویری نمیشم چون مسیری متفاوت برای تشحیص و ارتباط دادن با لیبل هر شئ یا موضوع داره) یک مشکل دیگه باید از پیش رو برداشته بشه. در OCR کلاسیک، ما با شدت نویز کمتری روبرو هستیم. یعنی مواردی مانند اعوجاج در تصویر، رنگهای متفاوت، خطوط مزاحم و همچنین بزرگی و کوچکی و Rotationها و ... باید رفع بشن. بنابراین با بحث Cleaning و رفع نویز هم درگیر خواهیم شد.
یک نمونهی ساده از تلاشهای انجام گرفته با توضیحات خوب از دانشگاه استنفورد