Extraiga texto de imágenes con estos mejores programas de OCR

2019

En estos días, casi todo (por ejemplo, fotos, música, videos) se ha vuelto digital (y eso tiene sentido, ya que el contenido digital se puede administrar, editar y compartir de manera conveniente). Entonces, ¿cómo pueden los documentos textuales quedarse atrás? Gracias a los avances en las técnicas de reconocimiento óptico de caracteres (OCR, por sus siglas en inglés), ahora es más fácil que nunca digitalizar la materia textual en documentos impresos / manuscritos, lo que lo hace editable mediante programas de procesamiento de textos.

Ahora, para hacer eso, necesita algunas aplicaciones de software OCR realmente buenas, y de eso se trata exactamente este artículo. Este software puede adquirir los documentos impresos de origen como imágenes desde dispositivos de escaneo, o puede ingresar sus propias imágenes de documentos para convertirlas en texto editable. Intrigado? Bueno, entonces no vamos a andar por las ramas y vayamos al mejor software de OCR .

1. ABBYY FineReader

Cuando se trata del reconocimiento óptico de caracteres, casi no hay nada que se aproxime incluso a ABBYY FineReader. ABBYY FineReader, cargado hasta el tope con una cantidad insana de potentes funciones, hace que la extracción de texto de todo tipo de imágenes sea muy fácil.

A pesar de tener una lista extensa y extensa de características, ABBYY FineReader es super simple de usar. Puede extraer texto de casi todos los tipos de formatos de imagen populares, como PNG, JPG, BMP y TIFF. Y eso no es todo. ABBYY FineReader también puede extraer texto de archivos PDF y DJVU. Una vez que se haya cargado el archivo o imagen de origen (que preferiblemente debería tener una resolución de al menos 300 ppp, para un escaneo óptimo), el programa lo analiza y determina automáticamente las diferentes secciones del archivo que tienen texto extraíble. Puede tener todo el texto extraído o elegir solo algunas secciones específicas. Después de eso, todo lo que debe hacer es usar la opción Guardar para elegir el formato de salida, y ABBYY FIneReader se encargará del resto. Hay numerosos formatos de salida compatibles, como TXT, PDF, RTF e incluso EPUB.

El texto de salida es perfectamente editable, y el texto incluso de los documentos más intensivos en contenido (p. Ej., Los que tienen varias columnas y diseños complejos) se extrae sin problemas. Otras características incluyen un amplio soporte de idiomas, numerosos estilos / tamaños de fuente y herramientas de corrección de imagen para archivos obtenidos de escáneres y cámaras.

En pocas palabras, si desea que el mejor software de OCR sea el mejor, con un amplio formato de entrada / salida y soporte de procesamiento, vaya a ABBYY FineReader.

Disponibilidad de plataforma: Windows 10, 8, 7, Vista y XP; Mac OS X 10.6 y versiones posteriores

Precio: las versiones pagas comienzan desde $ 169.99, 30 días de prueba gratuita disponible

Descargar

2. Readiris

En la búsqueda de un software de OCR extremadamente potente que tenga muchas funciones, pero ¿realmente no requiere mucho esfuerzo para comenzar? Eche un vistazo a Readiris, ya que podría ser lo que necesita.

Una aplicación de nivel profesional, Readiris tiene un extenso conjunto de características que es en gran parte idéntico al ABBYY FineReader discutido anteriormente. De BMP a PNG, y de PCX a TIFF, Readiris admite bastantes formatos de imagen. Aparte de eso, los archivos PDF y DJVU también pueden procesarse. Las imágenes pueden provenir de dispositivos de escáner, y la aplicación también le permite configurar parámetros de procesamiento personalizados para archivos / imágenes de origen, como suavizado y ajuste de DPI, antes de analizarlos. Aunque Readiris puede procesar imágenes de baja resolución sin problemas, la resolución óptima debe ser de al menos 300 ppp. Una vez que se realiza el análisis, Readiris determina las secciones de texto (o zonas), y el texto puede extraerse de zonas específicas o del archivo completo. El texto extraído es editable y se puede guardar en numerosos formatos, como PDF, DOCX, TXT, CSV y HTM.

Además, la función de guardar en la nube de Readiris Pro le permite guardar directamente el texto extraído en diferentes servicios de almacenamiento en la nube como Dropbox, OneDrive, GoogleDrive y algunos más. También hay una buena cantidad de funciones de edición / procesamiento de texto, e incluso se pueden escanear códigos de barras.

En general, debe usar Readiris si desea contar con funciones robustas de extracción / edición de texto en un paquete fácil de usar, completo con una amplia compatibilidad con el formato de entrada / salida. Sin embargo, Readiris falla un poco cuando se trata de procesar documentos con diseños complejos como varias columnas, tablas, etc.

Disponibilidad de plataforma: Windows 10, 8, 7, Vista y XP; Mac OS X 10.7 y versiones posteriores

Precio: las versiones pagadas comienzan desde $ 99, 10 días de prueba gratuita disponible

Descargar

3. FreeOCR

Si está buscando un software de OCR simple y sin complicaciones con capacidades de reconocimiento de texto decentes, no busque más que FreeOCR . Si bien puede que no esté sobrecargado con todo tipo de características sofisticadas, todavía funciona extremadamente bien para lo que es.

Basado en el extremadamente popular motor de OCR Tesseract respaldado por Google, FreeOCR es extremadamente fácil de usar. Puede obtener documentos impresos escaneados a través de escáneres y también le permite cargar imágenes con contenido textual. No solo eso, también puede extraer texto de documentos de varias páginas con gran formato. Puede hacer que la aplicación extraiga todo el texto del PDF / imagen de entrada o defina una parte específica del texto. Las velocidades de conversión son bastante buenas, y el texto convertido puede guardarse en formatos como TXT y RTF, o exportarse directamente a Microsoft Word. FreeOCR admite todos los formatos de imagen principales, como PNG, JPG y TIFF.

Dicho esto, FreeOCR tiene algunas deficiencias. Es demasiado básico y no tiene funciones de postprocesamiento de texto. Además, el diseño del texto extraído a menudo se desordena, con líneas y columnas superpuestas. Úselo solo si necesita alguna funcionalidad básica de OCR para uso ocasional.

Disponibilidad de plataforma: Windows 10, 8, 7, Vista y XP

Precio: gratis

Descargar

4. Microsoft OneNote

OneNote es una aplicación para tomar notas con una gran variedad de funciones con la que es fácil comenzar también. Sin embargo, tomar nota no es lo único en lo que es bueno. Si usa OneNote como parte de su flujo de trabajo, puede usarlo para realizar una extracción de texto básica, gracias a la bondad de OCR incorporada.

Usar OneNote para extraer texto de imágenes es ridículamente simple. Si usa la aplicación de escritorio, todo lo que tiene que hacer es usar la opción Insertar para insertar la imagen en cualquiera de los cuadernos o secciones. Una vez hecho esto, simplemente haga clic con el botón derecho en la imagen y seleccione la opción Copiar texto de la imagen . Todo el contenido textual de la imagen se copiaría al portapapeles y se podría pegar (y, por lo tanto, editar) en cualquier lugar, según el requisito. Ya sea PNG, JPG, BMP o TIFF, OneNote admite casi todos los formatos de imagen principales.

Sin embargo, las capacidades de extracción de texto de OneNote son bastante limitadas y no puede tratar con imágenes que tienen diseños de contenido textual complejos, como tablas y subsecciones. Así que eso es algo que debes tener en cuenta.

Disponibilidad de plataforma: Windows 10, 8, 7 y Vista; Mac OS X 10.10 y versiones posteriores

Precio: gratis

Descargar

5. GOCR

Nota: antes de comenzar, es importante saber que aunque GOCR admite formatos de imagen normales como PNG y JPG, no los reconoció durante nuestras pruebas (realizadas en una PC con Windows 10). Es muy posible que funcione con esos formatos en máquinas Linux, pero si está utilizando Windows, deberá convertir la (s) imagen (es) de origen al formato PNM. Esto se puede hacer a través de numerosas herramientas de conversión de archivos en línea, como esta.

Lo que diferencia a GOCR del resto es que realmente no tiene una interfaz gráfica de usuario (GUI). Es una herramienta basada en la línea de comandos y, como tal, no es realmente la más fácil de usar. Pero una vez que se sienta cómodo con lo básico, GOCR puede resultar realmente útil en la extracción de texto de imágenes. También vale la pena señalar que para que GOCR funcione correctamente, las imágenes de origen deben tener un contenido textual claramente visible, y preferiblemente un fondo blanco, ya que la utilidad realmente no funciona con archivos de origen complejos. GOCR extrae el texto de las imágenes y las guarda en el formato TXT. Si bien admite bastantes argumentos y funciones, solo se necesita conocer algunos para comenzar. Por ejemplo, para extraer texto de una imagen PNM de muestra, debe ingresar lo siguiente en el símbolo del sistema.

X: \ carpeta de ejemplo \ gocr049 -i archivo.pnm -o archivo.txt

Aquí, X: \ sample folder es la ubicación donde se encuentra la herramienta de línea de comando de GOCR, y file.pnm y file.txt son los archivos de entrada y salida, respectivamente (ambos en la misma ubicación que GOCR también; si la ubicación es diferente, se debe especificar la ruta completa). Además, si desea cambiar los niveles de escala de grises de la imagen, puede especificar un valor numérico como argumento, junto con -l. Haga clic aquí para leer sobre el uso en detalle.

Para resumir, GOCR es una utilidad de OCR bastante buena, y cuando se trata de la extracción de texto de imágenes simples, funciona excepcionalmente bien. Sin embargo, tiene funciones muy limitadas y requiere un esfuerzo considerable para comenzar a trabajar.

Disponibilidad de plataforma: Windows 10, 8, 7, Vista y XP; Linux; OS / 2

Precio: gratis

Descargar

¿Todo listo para convertir imágenes a texto?

La digitalización de contenido textual impreso (y manuscrito) es extremadamente útil, ya que hace que almacenar, editar y compartir texto sea extremadamente fácil. Y el software OCR mencionado anteriormente hace que el trabajo sea rápido, sin importar qué tan básicas o avanzadas sean sus necesidades de extracción de texto. ¿Necesita funciones de extracción de texto de nivel profesional con las mejores herramientas de procesamiento posterior? Ve por ABBYY FineReader o Readiris. ¿Preferiría un software de OCR más simple que simplemente hace lo básico? Utilice OneNote o FreeOCR. Pruébalos y ve cómo funcionan para ti. ¿Conoces algún otro software de OCR que pudiera haber sido incluido en el listado anterior? Gritar en los comentarios a continuación.