Convertire un'immagine contenente testo in uno scritto modificabile con Tesseract un OCR per Ubuntu
Argomento

Problema
vogliamo convertire una immagine che contiene testo in uno scritto modificabile
Soluzione
Con Ubuntu possiamo utilizzare Tesseract un valido sistema di riconoscimento dei caratteri (OCR - Optical Character Recognition)
La pagina ufficiale del Wiki consiglia vari programmi di OCR per Ubuntu . Ho provato Tesseract e ho visto che lavora molto bene
Installazione
Da terminale possiamo dare il comando
sudo apt-get install tesseract-ocr tesseract-ocr-eng tesseract-ocr-ita
La guida ufficiale consiglia di utilizzare immagini di tipi tiff ma ho ottenuto buoni risultati con immagini di tipo png
Ecco il comando da dare
tesseract immaginetesto.tif risultato -l ita
In questo modo il testo contenuto in immagine immaginetesto.tif verrà convertito e salvato in risultato.txt