Tesseract OCR


Tesseract es un motor OCR libre. Fue desarrollado originalmente por Hewlett Packard como software propietario entre 1985 y 1995. Tras diez años sin ningún desarrollo, fue liberado como código abierto en el año 2005 por Hewlett Packard y la Universidad de Nevada, Las Vegas. Tesseract es desarrollado actualmente por Google y distribuido bajo la licencia Apache, versión 2.0.

Tesseract está considerado como uno de los motores OCR libres con mayor precisión disponibles actualmente.

El motor Tesseract se desarrolló en los laboratorios de Bristol de Hewlett Packard en Greeley (Colorado) entre 1985 y 1994. En 1996 se realizaron las modificaciones necesarias para su portabilidad en Windows, y más tarde, en 1998 se migró el sistema de C a C++.

En 1995, Tesseract era uno de los tres mejores motores OCR en cuanto a precisión, además está disponible para Linux, Windows y Mac OS X, sin embargo, sólo ha sido probado por los desarrolladores en Windows y Ubuntu. Hasta la versión 2, Tesseract sólo podía aceptar como entrada imágenes de una sola columna en formato TIFF. En estas primeras versiones no se incluía análisis de patrones, y por tanto, las imágenes con múltiples columnas o anotaciones producían resultados ilegibles. Desde la versión 3, Tesseract soporta el formato en el texto y el análisis del patrón de la página. A través de la biblioteca Leptonica, se consigue la compatibilidad con nuevos formatos de imagen, además, se puede detectar si el texto proporcional o monoespaciado. Tesseract puede procesar inglés, francés, italiano, alemán, español, portugués brasileño y neerlandés, y puede ser entrenado para funcionar con otros idiomas.

Acerca de

Licenciado en Ciencias Empresariales por la Universidad de Alcalá de Henares Diplomado en Ciencias Empresariales por la Universidad del Pais Vasco. Jefe del Departamento económico Financiero de la autoridad portuaria de Pasajes. Promotor y gestor del Sitio http://mibodega.org.es

Publicado en Documentación, O.C.R.
Categorías
agosto 2015
L M X J V S D
« Mar   Sep »
 12
3456789
10111213141516
17181920212223
24252627282930
31  
Archivos

Introduzca su correo electrónico para seguir este Blog y recibir notificación, vía Email, de los nuevos artículos publicados.

Estadistica
  • 70,642 accesos
A %d blogueros les gusta esto: