Оптическое распознавание символов (OCR) в Raspberry Pi с помощью Tesseract

Способность современных машин (вычислительных устройств) использовать камеры для получения информации об окружаем мире и способность интерпретировать/обрабатывать эти данные с каждым годом оказывает все большее влияние на жизнь современного общества. Сейчас уже никого не удивишь роботом доставщиком еды (например, Starship Robots) или автомобилем с функцией автопилота (например, Tesla) – эти устройства во время своего движения для принятия решений полагаются на информацию, получаемую от своих высоко технологичных камер. В данной статье мы рассмотрим основы технологии оптического распознавания символов (Optical Character Recognition, OCR), применяемой в современных электронных устройствах для распознавания отдельных символов на изображении.

У этой технологии очень много возможностей для практического применения в современном мире: считывание информации с визиток, распознавание магазине по его названию, распознавание дорожных знаков и многое другое. Наверняка многие из вас уже слышали о таком приложении как Google Lens, которое представляет собой систему искусственного интеллекта, распознающую в режиме реального времени объекты на фотографии и предоставляющую имеющуюся по ним сведения в сети интернет. В данной статье мы рассмотрим похожий инструмент от компании Google для выполнения задачи оптического распознавания символов (OCR) под названием Tesseract-OCR Engine, работающий на основе языка python и библиотеки OpenCV. Данный инструмент позволяет распознавать/идентифицировать символы на изображениях с помощью платы Raspberry Pi.

Также на нашем сайте вы можете прочитать статьи про использование библиотеки OpenCV в Raspberry Pi для распознавания лиц и про установку OpenCV на Raspberry Pi с помощью CMake.

Установка Tesseract на Raspberry Pi

Для выполнения задачи оптического распознавания символов (OCR) в Raspberry Pi нам необходимо установить на нее Tesseract OCR engine. Чтобы сделать это нам сначала нужно сконфигурировать Debian Package (dpkg), который затем поможет нам установить Tesseract OCR. Для конфигурирования Debian Package выполните следующую команду:

sudo dpkg - -configure –a

1	sudo dpkg - -configure –a

Далее мы можем приступить к установке Tesseract OCR (Optical Character Recognition) с помощью опции apt-get. Выполните для этого команду:

sudo apt-get install tesseract-ocr

1	sudo apt-get install tesseract-ocr

После этого в окне терминала вы должны увидеть примерно следующую картину:

Процесс установки Tesseract OCR займет около 5-10 минут.

Теперь, когда у нас Tesseract OCR установлен, нам необходимо установить еще пакет PyTesseract с помощью установщика пакетов pip. Pytesseract – это python оболочка для Tesseract OCR engine, которая позволяет использовать возможности Tesseract из языка python. Для установки PyTesseract выполните следующую команду:

Pip install pytesseract

1	Pip install pytesseract

Прежде чем продолжать далее убедитесь в том, что на вашей плате установлена библиотека pillow. О том, как ее установить, можно прочитать в статье про распознавание лиц с помощью платы Raspberry Pi. После завершения установки pytesseract вы в окне терминала должны увидеть примерно следующую картину:

Tesseract 4.0 на Windows/Ubuntu

Проект оптического распознавания символов изначально начинал разрабатываться компанией Hewlett Packard в 1980 году. Затем он был выкуплен компанией Google, которая и осуществляет его поддержку вплоть до настоящего времени. Многие годы Tesseract хорошо работал только на изображениях определенного формата. К примеру, если фон изображения был сильно зашумлен или объект для распознавания был не в фокусе, то Tesseract работал не очень хорошо.

Для преодоления этой проблемы последние версии tesseract (к примеру, версия Tesseract 4.0) стали использовать технологии машинного обучения (Deep Learning) для улучшения распознавания символов и даже почерка. Tesseract 4.0 использует Long Short-Term Memory (LSTM) и рекуррентную нейронную сеть (Recurrent Neural Network, RNN) для повышения точности распознавания символов. К сожалению, на момент написания оригинала данной статьи (август 2019 г., ссылка на оригинал в конце статьи) Tesseract 4.0 был доступен для использования только в операционных системах Windows и Ubuntu, а для Raspberry Pi он находился в стадии бета тестирования. Поэтому в оригинале данной статьи автор использовал ее версию Tesseract 3.04 на Raspberry Pi. На момент прочтения вами данной статьи, скорее всего, будут доступны уже и более свежие версии Tesseract для Raspberry Pi. Но мы надеемся, что после прочтения данной статьи у вас их применение не вызовет никаких затруднений.

Простое распознавание символов в Raspberry Pi

В предыдущем пункте статьи мы уже установили на плату Raspberry Pi библиотеку Tesseract OCR и пакет Pytesseract. Поэтому в данном разделе статьи мы напишем небольшую программу чтобы проверить как работает распознавание символов на тестовом изображении. В качестве тестового изображения мы будем использовать следующее:

Текст используемой нами программы будет очень простой. Как видите, он даже не использует пакеты библиотеки OpenCV.

from PIL import Image
img =Image.open (‘1.png’)
text = pytesseract.image_to_string(img, config=’’)
print (text)

from PIL import Image

img =Image.open (‘1.png’)

text = pytesseract.image_to_string(img, config=’’)

print (text)

В представленной программе мы пытаемся прочитать текст с изображения под названием ‘1.png’, которое расположено в том же самом каталоге, что и наша программа. Для открытия этого изображения используется пакет Pillow, после чего оно сохраняется в переменной img. Затем мы используем метод image_to_string из пакета pytesseract для обнаружения любого текста на изображении и сохраняем его в переменной text. И, наконец, мы выводим значение переменной text на экран чтобы проверить результат работы программы.

Как вы можете видеть, тестовое изображение содержит текст Explain that Stuff! 01234567890”, а в результате работы нашей небольшой программы мы получили текст “Explain that stuff! Sdfiosiefoewufv”. Это означает, что наша программа не смогла распознать цифры на изображении. Для преодоления этой проблемы обычно используют библиотеку OpenCV чтобы удалить шум (зашумленность) из программы и затем настраивают Tesseract OCR engine чтобы получить более впечатляющие результаты. Но помните о том, что не стоит ожидать 100% точности распознавания от Tesseract OCR Python.

Настройка Tesseract OCR для улучшения результатов

Pytesseract позволяет нам производить настройку Tesseract OCR engine при помощи установки флагов (flags), которые влияют на способ поиска символов на изображении. Для настройки Tesseract OCR используется 3 основных флага:

language (-l) (язык);
OCR Engine Mode (--oem) (режим работы "движка" распознавания символов);
Page Segmentation Mode (- -psm) (режим сегментации страниц).

Кроме английского языка (по умолчанию) Tesseract также поддерживает множество других языков: Hindi, Турецкий, Французский и др. Мы в нашем проекте будем использовать только английский язык (English), но вы можете скачать соответствующие обучающие пакеты со страницы на github и добавить их в свой пакет чтобы иметь возможность распознавать символы на других языках. Также возможно производить распознавание двух или более языков на одном и том же изображении. Язык распознавания устанавливается с помощью флага language, значение этого флага –l соответствует английскому языку (English), для других языков необходимо использовать другие значения этого флага.

Следующим флагом является OCR Engine Mode, с помощью которого можно использовать 4 различных режима распознавания. Каждый режим использует свой собственный алгоритм для распознавания символов на изображении. По умолчанию используется алгоритм, который устанавливается вместе с пакетом. Но мы можем изменить его чтобы использовать LSTM или Neural nets (нейронные сети). 4 доступных режима OCR Engine Mode показаны на следующем рисунке. Этот флаг устанавливается с помощью префикса --oem, то есть чтобы использовать mode 1 (режим 1), необходимо ввести -- oem 1.

И, наконец, один из самых значимых флагов, которые используются для настройки Tesseract OCR – это флаг режима сегментации страниц (page segmentation mode flag). Этот флаг очень полезен когда фон вашего изображения имеет много незначащих деталей (шум) или символы на изображении написаны в различной ориентации и с различными размерами. Всего доступно 14 различных режимов сегментации страниц, которые представлены на рисунке ниже. Флаг устанавливается с помощью префикса –psm, в нашем случае мы будем использовать –psm 11.

Использование флагов oem и psm в Tesseract на Raspberry Pi для улучшения результатов распознавания

Проверим эффективность рассмотренных режимов. На представленном ниже рисунке мы сделали попытку распознавания символов на дорожном знаке, обозначающем ограничение скорости. На знаке написано “SPEED LIMIT 35”. Как вы можете видеть из представленного рисунка, число 35 на нем значительно большего размера, чем все остальные символы. Это обстоятельство существенно затрудняет работу Tesseract, поэтому он смог распознать с этого изображения “SPEED LIMIT”, а цифры не распознал.

Чтобы преодолеть эту проблему, мы попробуем настроить флаги. В ранее рассмотренной программе флаг настройки пуст (config=’’), исправим это. Текст на изображении на английском языке, поэтому используем флаг –l eng, флаг oem оставим в режиме по умолчанию, то есть –oem 3 (режим 3). Теперь нам осталось только настроить флаг psm, нам необходимо найти больше символов на изображении, поэтому мы будем использовать режим 11, то есть получим флаг –psm 11. Окончательная настройка флагов будет выглядеть следующим образом:

test = pytesseract.image_to_string(gray, config='-l eng --oem 3 --psm 12')

1	test = pytesseract.image_to_string(gray, config='-l eng --oem 3 --psm 12')

Результат работы программы с этими внесенными изменениями показан на рисунке ниже. Как вы можете видеть, Tesseract в этом случае смог найти все символы на изображении, в том числе и число 35.

Улучшение точности распознавания с помощью доверительного уровня

Другой интересной особенностью, присутствующей в Tesseract, является метод image_to_data. Этот метод может определить нам такие детали распознавания как позицию символов на изображении, доверительный уровень (confidence level) обнаружения символов, линии и номера страниц. Попробуем использовать это при распознавании следующего изображения.

На этом приведенном изображении мы имеем много "шума", затрудняющего восприятие полезной информации. Значащая часть на этом изображение – это название больницы (“Fortis Hospital”). Но вместе с названием этой больницы изображение также содержит много фоновой информации, например, логотип здания. Поэтому Tesseract попытался сконвертировать все это в текст и получил много шума, например, “$C” “|” “S_______S==+” и т.д.

И в подобных ситуациях использование метода image_to_data очень удобно. Как вы можете видеть из представленного рисунка, алгоритм оптического распознавания символов возвращает нам значение доверительного уровня каждого распознанного символа. Как мы можем видеть, доверительный уровень слова Fortis составляет 64, а слова HOSPITAL – 24. Для остальной "шумовой" информации доверительный уровень равен или менее 10. Таким образом, основываясь на значении доверительного уровня для каждого распознанного элемента изображения, мы можем отфильтровать полезную для нас информацию и, таким образом, улучшить качество распознавания.

Оптическое распознавание символов (OCR) в Raspberry Pi

Хотя результаты использования Tesseract на Raspberry Pi нельзя назвать впечатляющими, его можно объединить с OpenCV для фильтрации шума и нежелательных элементов на изображении. Автор статьи с помощью Tesseract на Raspberry Pi проанализировал 7 различных изображений и для каждого изображения пытался настроить оптимальную модель распознавания.

Также рассмотрим пример распознавания еще одного изображения, которое представляет собой дорожный знак. Код программы для распознавания этого изображения будет следующий.

import pytesseract
from PIL import Image
import cv2

img = cv2.imread('4.png',cv2.IMREAD_COLOR) #Open the image from which charectors has to be recognized
#img = cv2.resize(img, (620,480) ) #resize the image if required

gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) #convert to grey to reduce detials
gray = cv2.bilateralFilter(gray, 11, 17, 17) #Blur to reduce noise

original = pytesseract.image_to_string(gray, config='')
#test = (pytesseract.image_to_data(gray, lang=None, config='', nice=0) ) #get confidence level if required
#print(pytesseract.image_to_boxes(gray))

print (original)

import pytesseract

from PIL import Image

import cv2

img = cv2.imread('4.png',cv2.IMREAD_COLOR) #Open the image from which charectors has to be recognized

#img = cv2.resize(img, (620,480) ) #resize the image if required

gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) #convert to grey to reduce detials

gray = cv2.bilateralFilter(gray, 11, 17, 17) #Blur to reduce noise

original = pytesseract.image_to_string(gray, config='')

#test = (pytesseract.image_to_data(gray, lang=None, config='', nice=0) ) #get confidence level if required

#print(pytesseract.image_to_boxes(gray))

print (original)

Программа открывает указанное изображение для распознавания и конвертирует его в черно-белое изображение с оттенками серого (grayscale). Это уменьшит количество ненужных деталей на изображении и сделает работу Tesseract по ее распознаванию более простой. Далее для уменьшения фонового шума мы используем размытие (blur) изображения с помощью билатерального сглаживающего фильтра (bilateral filter) – это метод из библиотеки OpenCV. И, наконец, мы запускаем распознавание символов на изображении и выводим результаты распознавания на экран. Результаты работы этой программы выглядят следующим образом:

Надеемся, вам понравился этот проект оптического распознавания символов в плате Raspberry Pi. Также на нашем сайте вы можете посмотреть все проекты, связанные с обработкой изображений.

Исходный код программы на Python

import pytesseract
from PIL import Image
import cv2
 
 
img = cv2.imread('4.png',cv2.IMREAD_COLOR) #Open the image from which charectors has to be recognized
#img = cv2.resize(img, (620,480) ) #изменяем размер изображения если это необходимо 
 
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) #convert to grey to reduce detials 
gray = cv2.bilateralFilter(gray, 11, 17, 17) #Blur to reduce noise
 
original = pytesseract.image_to_string(gray, config='')
#test = (pytesseract.image_to_data(gray, lang=None, config='', nice=0) ) #get confidence level if required
#print(pytesseract.image_to_boxes(gray))
 
print (original)
 
'''required = 'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ'
Final = ''
 
for c in original:
    for ch in required:
        if c==ch:
        Final = Final + c 
        break
 
print (test)
 
for a in test:
if a == "\n":
print("found")'''

import pytesseract

from PIL import Image

import cv2

img = cv2.imread('4.png',cv2.IMREAD_COLOR) #Open the image from which charectors has to be recognized

#img = cv2.resize(img, (620,480) ) #изменяем размер изображения если это необходимо

gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) #convert to grey to reduce detials

gray = cv2.bilateralFilter(gray, 11, 17, 17) #Blur to reduce noise

original = pytesseract.image_to_string(gray, config='')

#test = (pytesseract.image_to_data(gray, lang=None, config='', nice=0) ) #get confidence level if required

#print(pytesseract.image_to_boxes(gray))

print (original)

'''required = 'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ'

Final = ''

for c in original:

for ch in required:

if c==ch:

Final = Final + c

break

print (test)

for a in test:

if a == "\n":

print("found")'''

Источник статьи

Примечание от автора перевода: видимо ранее в тексте этой статьи имелись ссылки на скачивание всех программ и тестовых изображений, которые использовались в этой статье, но сейчас их почему то нет на источнике. Но, надеюсь, и без них статья получилась достаточно полезной и интересной.

(Проголосуй первым!)

Загрузка...

2 344 просмотров

Оптическое распознавание символов в Raspberry Pi с помощью Tesseract

Установка Tesseract на Raspberry Pi

Tesseract 4.0 на Windows/Ubuntu

Простое распознавание символов в Raspberry Pi

Настройка Tesseract OCR для улучшения результатов

Использование флагов oem и psm в Tesseract на Raspberry Pi для улучшения результатов распознавания

Улучшение точности распознавания с помощью доверительного уровня

Оптическое распознавание символов (OCR) в Raspberry Pi

Исходный код программы на Python

Добавить комментарий Отменить ответ

Установка Tesseract на Raspberry Pi

Tesseract 4.0 на Windows/Ubuntu

Простое распознавание символов в Raspberry Pi

Настройка Tesseract OCR для улучшения результатов

Использование флагов oem и psm в Tesseract на Raspberry Pi для улучшения результатов распознавания

Улучшение точности распознавания с помощью доверительного уровня

Оптическое распознавание символов (OCR) в Raspberry Pi

Исходный код программы на Python

Похожие статьи

Добавить комментарий Отменить ответ