Tutorial (en inglés) para el reconocimiento de texto con Tesseract OCR en Ubuntu 7.04, pero sirve para cualquier sistema (GNU/)Linux con imagemagick. Se trata de un programa desarrollado por HP durante 10 años, mejorado y liberado por Google (asegura que es el mejor OCR libre). Ya vimos que Google presentó el proyecto hace un año: Google hace open source un soft OCR
Esto abre muchas posibilidades para el software libre, campos enormes como la gestión documental ya tienen la pieza que les faltaba para su completa apertura i flexibilización.
Pongo las URLs directas del proyecto más grande (el OCR de escritura manual), para probar los enlaces (soy nuevo y aquí no haré mucho ruido si sale mal) y de paso ahorraros algún que otro clic:
Comentarios
Esto abre muchas posibilidades para el software libre, campos enormes como la gestión documental ya tienen la pieza que les faltaba para su completa apertura i flexibilización.
Pongo las URLs directas del proyecto más grande (el OCR de escritura manual), para probar los enlaces (soy nuevo y aquí no haré mucho ruido si sale mal) y de paso ahorraros algún que otro clic:
http://ocropus.org -> http://code.google.com/p/ocropus
y http://google-code-updates.blogspot.com/2007/04/announcing-ocropus-open-source-ocr.html
P.D. ¡Me salió bien, no hay que poner ninguna marca "