Definición de OCR

- Definista

OCR son las de optical character recognition o también conocido en español como reconocimiento óptico de caracteres. El OCR es un software que posibilita el reconocimiento del texto, produciendo una imagen de este para transformarla en una sucesión de caracteres, para luego guardarlos en un dado formato, que pueda ser utilizado en aquellos programas de edición de texto. Es decir que gracias a esta nueva tecnología se puede convertir cualquier tipo de texto o documento, que abarca archivos PDF, papeles escaneados o hasta imágenes tomadas desde cámaras digitales, en datos para así tener la posibilidad de ser editados.

Este software funciona de la siguiente manera, primero analiza cada parte de la imagen del documento en cuestión; distribuye la página en piezas como tablas, imágenes, bloques de texto entre otros; luego las líneas están distribuidas en palabras para después pasar a ser caracteres; y puesto que los caracteres ya fueron señalados, el software hace la comparación con un grupo de imágenes del patrón. Este avanza según la serie de hipótesis sobre que es cada carácter; y basándose en dichas hipótesis va analizando las distintas variantes de ruptura de líneas en palabras y de palabras en caracteres. Y es después de un gran número de análisis y procesamiento de las hipótesis, que finalmente el programa presenta el texto ya reconocido y transformado con un nuevo formato.

Cabe destacar que hoy en días existen una serie de programas que el mercado informático ofrece basados en el OCR tales como OmniPage, Abbyy Fine Reader o READiris. YY que poseen la capacidad, no solamente de analizar y reconocer un texto como tal, sino que además reconoce el formato y estilo, pero con ciertas limitaciones, necesitando así que el texto, luego de ser analizado, sea editado para hacerle los ajustes que se requieran.


Sugiere un concepto

Definiciones Relacionadas:


Publicado: Diciembre 7, 2014

Otros conceptos: