Convertire un'immagine contenente testo in uno scritto modificabile con Tesseract un OCR per Ubuntu

Argomento
Convertire un'immagine contenente testo in uno scritto modificabile con Tesseract un OCR per Ubuntu

Problema

vogliamo convertire una immagine che contiene testo in uno scritto modificabile

Soluzione

Con Ubuntu possiamo utilizzare Tesseract un valido sistema di riconoscimento dei caratteri (OCR - Optical Character Recognition)

La pagina ufficiale del Wiki consiglia vari programmi di OCR per Ubuntu . Ho provato Tesseract e ho visto che lavora molto bene

Installazione

Da terminale possiamo dare il comando

sudo apt-get install tesseract-ocr tesseract-ocr-eng tesseract-ocr-ita

 

La guida ufficiale consiglia di utilizzare immagini di tipi tiff ma ho ottenuto buoni risultati con immagini di tipo png

Ecco il comando da dare

tesseract immaginetesto.tif risultato -l ita

In questo modo il testo contenuto in immagine immaginetesto.tif verrà convertito e salvato in risultato.txt