Publicidad:
La Coctelera

TIC y Ciencia

por Rafael A. Moreno

28 Julio 2007

EL RECONOCIMIENTO ÓPTICO DE CARACTERES (OCR)

El software de reconocimiento óptico de caracteres abreviado habitualmente como OCR (Optical Character Recognition), extrae de una imagen los caracteres que componen un texto para almacenarlos en un formato con el cual puedan interactuar programas de edición de texto.

Mientras que en una imagen los caracteres se describen indicando cada uno de los puntos que los forman, al convertirlos a un formato de texto (por ejemplo ASCII o Unicode), pasan a estar descritos por un solo número, por lo que se produce una reducción significativa del espacio en memoria que ocupan.

Todos los sistemas OCR incluyen un escáner óptico para la lectura de textos, un software sofisticado para analizar las imágenes. Estos sistemas de reconocimiento de texto generalmente usan una combinación de hardware y software para reconocer caracteres. Los sistemas OCR avanzados pueden leer texto bajo una gran diversidad de tipos de letra, pero todavía hay que convenir que el reconocimiento de la impresión manual, es decir, aquella que proviene de la caligrafía humana e incluso las versiones
escritas a máquina, que se encuentran impresas en otras grafías (especialmente aquellas con un número muy grande de caracteres), sigue siendo una fuente de intensa investigación, son difíciles de tratar y en este sentido no se ha avanzado mucho.

La utilidad de los sistemas OCR es inmensa pues permiten a los usuarios aprovechar el incesante potencial de los ordenadores para acceder a los textos impresos. EL OCR está ya siendo utilizado de una manera muy extendida pues permite realizar trabajos en pocos segundos que de otra manera llevarían horas.

A día de hoy, el reconocimiento preciso en textos mecanografiados con escritura en caracteres latinos se considera un problema resuelto en la gran mayoría de sus aspectos.

Actualmente, junto con el texto, se registra también el formato con el que ha sido escrito.

Una variante del OCR es el OMR (optical mark recognition) que se utiliza para reconocimiento de marcas. Un ejemplo sería la corrección automática de exámenes de tipo test, en los que la respuesta correcta se rodea con un círculo.

Los sistemas para el reconocimiento de los textos escritos a mano alzada han disfrutado, en años recientes, de algunos éxitos comerciales. Entre estos se encuentran los dispositivos conocidos como asistentes digitales personales tales como los que se encuentran instalados en el Palm OS. El Newton de Apple fue el pionero en este tipo de asistentes. Los algoritmos que usa el software de estos aparatos se aprovecha del hecho de que se conocen el orden, la velocidad y la dirección de los segmentos de línea como información de entrada. El usuario se puede entrenar y ayudar al dispositivo usando solamente formas específicas de letras. Estos mismos métodos no se pueden trasladar a los programas que se encargan de interpretar los caracteres de documentos escaneados y sigue siendo un problema de cierta entidad.

La proporción de texto reconocido se encuentra, actualmente, entre el 80 y el 90, en el caso de caracteres escritos a mano con gran claridad y pulcritud, pero estos porcentajes disminuyen sensiblemente en el caso de los escaneos de texto y es muy frecuente encontrar docenas de errores por página escaneada. Este problema condiciona la tecnología OCR haciéndola una tecnología útil en un reducido número de contextos. Esta variedad de OCR se conoce comúnmente en la industria como ICR (Intelligent Character Recognition).

El reconocimiento de textos cursivos, en el que todas las letras se encuentran conectadas formando una palabra, es un área de intensa investigación, con proporciones de reconocimiento incluso más bajas que las que se dan en los textos impresos a mano pero mediante caracteres individualizados. Para elevar los porcentajes de aciertos en la escritura caligráfica se requiere el uso adicionar de otro tipo de información, ya sea gramatical o contextual. Por ejemplo, el reconocimiento de palabras enteras que se encuentran, previamente, clasificadas en un diccionario es un problema más fácil de resolver que tratar de analizar, de manera individual, los caracteres de la escritura.

Un claro ejemplo de información contextual es la lectura de la línea donde se escribe la cantidad en un cheque (que se encuentra siempre escrita como un número). Aquí, el uso de un diccionario de reducidas dimensiones puede incrementar de manera considerable el porcentaje de aciertos. El conocimiento de la sintaxis gramatical de una lengua, que es explorada, puede también ayudar para determinar si una palabra es más probable que sea un verbo o un sustantivo permitiendo, de esta manera, una mayor exactitud. Simplemente por sí mismos, las formas de los caracteres individuales cursivos no pueden contener bastante información para reconocer con precisión todos los escritos a mano.

Existen otras áreas de colaboración, donde los humanos ayudan a las máquinas, y viceversa. Las técnicas de procesamiento de imágenes pueden ayudar a una lectura extraordinariamente compleja para un ser humano tales como el Palimpsesto de Arquímedes o los Manuscritos del Mar Muerto. Para problemas de reconocimiento muy complejos se usan las redes neuronales ya que pueden efectuar, de manera indistinta, tanto transformaciones no lineales como transformaciones afines.

Como ejemplos actuales de programas OCR se pueden mencionar: Finereader, Omnipage y alguno más que rueda en Linux. Básicamente funcionan bajo el mismo patrón. Personalmente he empleado los dos primeros y me ha dado mejor resultado el Finereader (versión 8 en español), pero esta apreciación, como insisto, es subjetiva y depende del trabajo que se tenga que realizar. Una vez configurado el escáner conectado al equipo, se escanea digitalmente el texto correspondiente, se lee, se detectan incongruencias y se aplica el corrector ortográfico (diccionario en español), permitiendo libertad al usuario para modificar el texto escaneado. En la versión de Finereader empleada se nos posibilitar el plasmar el fichero con el texto escaneando en distintos formatos, incluso en pdf. Los resultados son muy aceptables en la mayoría de los casos. El asunto se complica cuando existen tablas o cuadros, lo que requiere a menudo un perfilado manual posterior.

Rafael Antonio Moreno

Córdoba, Abril 2007

servido por ticyciencia 1 comentario compártelo

1 comentario · Escribe aquí tu comentario

maike

maike dijo

hola buenas tardes,

Verá estoy bastante preocupado, pues he hecho un examen y dejé un respuesta sin rellenar el cuadríto completamente porque me dí cuenta de que era incorrecta, pero hize una rayita en el cuadrado (el examen es tipo test y se corrige por lector optico) me pregunto si el lector lo puede reconocer como respuesta pues de ser así tengo un problema.

Espero su respuesta.

Gracias.

17 Julio 2009 | 09:23 PM

Escribe tu comentario


Sobre mí

Mi nombre es Rafael A. Moreno, soy economista y en mis ratos libres me dedico a investigar y a estar al día sobre las nuevas tecnologías y las Ciencias. Vivo en Córdoba. Espero incluir en este blog artículos que sean de interés, en un lenguaje sencillo y ameno. También pretendo recoger los artículos que vaya publicando en la revista 'Añoranza', de la que soy colaborador.

Últimos comentarios

Fotos

ticyciencia todavía no ha subido ninguna foto.

¡Anímale a hacerlo!

Buscar

suscríbete

Selecciona el agregador que utilices para suscribirte a este blog (también puedes obtener la URL de los feeds):

¿Qué es esto?

Crea tu blog gratis en La Coctelera