top of page

Extracción de Información de Documentos Mediante Imágenes: Retos y Soluciones con OCR, Procesadores Custom y Modelos Multimodales

Writer's picture: Marcos RecolonsMarcos Recolons

Updated: Jan 27

La digitalización de documentos ha traído consigo un reto constante: la extracción confiable de información cuando las imágenes no siguen un patrón estandarizado. Iluminación variable, inclinaciones, tipos de documento diferentes y resoluciones desiguales hacen que, en muchos casos, un OCR básico sea insuficiente. En este artículo, presento la experiencia de un proyecto real donde abordamos este desafío y exploramos diversas soluciones: desde el uso de OCRs tradicionales y procesadores custom hasta la migración hacia modelos LLM (Large Language Models) multimodales. Veremos ventajas, desventajas, costes, y por qué la combinación de técnicas de preprocesado y nuevos modelos generativos puede ofrecernos mejores resultados a un coste más reducido.





1. Introducción


La demanda de automatizar la extracción de datos clave (nombre del cliente, fecha, importe de una factura, etc.) a partir de imágenes ha crecido notablemente. Si bien el OCR nos permite leer el texto de una imagen y conocer la ubicación de cada palabra, el problema real suele radicar en vincular correctamente la etiqueta y el valor. Un ligero cambio de ángulo, una inclinación diferente o la presencia de fondos con marcas de agua pueden conducir a resultados inexactos.

En este artículo, expondré:

  • Cómo iniciamos con OCRs básicos y descubrimos sus limitaciones.

  • Nuestra experiencia entrenando procesadores custom (como los de Google) para ajustarlos a documentos específicos.

  • El salto hacia modelos multimodales, como GPT o Gemini, que no requieren un etiquetado tan exhaustivo y brindan gran flexibilidad.

  • Los retos de preprocesamiento (rotación, marcas de agua) y las soluciones que encontramos.




2. OCR Básico: Primeros Pasos y Limitaciones


2.1 Reconocimiento de Texto y Ubicación de Vértices

Los OCRs básicos, como Tesseract o servicios en la nube, ofrecen:

  • Reconocimiento del texto presente en la imagen.

  • Posicionamiento (coordenadas) de cada palabra.

Sin embargo, cuando se busca extraer información puntual (por ejemplo, “Altura total” o “Peso”), la lectura meramente secuencial del texto puede confundir etiquetas con valores contiguos. En condiciones ideales —documentos bien escaneados, sin inclinaciones— los OCRs obtienen resultados aceptables. Pero la realidad nos mostró documentos con distintos ángulos de captura, poca iluminación o resoluciones irregulares.

2.2 Problemas Clave

  • Confusión espacial: El modelo tomaba como “valor” la palabra o el número que aparecía más cerca en la imagen, sin considerar que podría estar ubicado encima, debajo o en diagonal.

  • Etiquetas repetidas: A veces, el documento repetía “Altura” en distintos lugares, y el valor correcto se asociaba erróneamente al etiquetado equivocado.

La principal lección aprendida fue que el simple reconocimiento de texto no era suficiente para mantener la correspondencia etiqueta-valor de forma fiable.



3. Procesadores Custom: Entrenamiento y Despliegue


3.1 Selección de Plataforma y Análisis de Mercado

Para refinar la extracción, existían en el mercado procesadores custom (p. ej., Google Document AI o Amazon Textract), que permiten entrenar un modelo con ejemplos de documentos etiquetados. Esta opción, sin embargo, suele implicar un coste elevado, tanto en la etapa de entrenamiento como en la predicción por documento.

Tras probar varias alternativas, descubrimos que la suite de Google ofrecía muy buen desempeño:

  • Modelos preentrenados que reconocen layouts comunes (facturas, recibos, pasaportes, etc.).

  • Modelos personalizados que requieren una fase de etiquetado de datos para adaptarse a documentos específicos.


3.2 Entrenamiento y Costes

Entrenar el modelo consistió en:

  1. Etiquetar al menos 100 documentos para indicar dónde se encuentra cada campo de interés.

  2. Subir estos datos a la plataforma y dejar que el modelo aprendiera a extraer la información.

Ventajas:

  • Logramos un 90% de precisión tras el etiquetado y el entrenamiento.

  • El modelo aprendía la disposición espacial típica del documento y se adaptaba mejor que un OCR básico.

Desventajas:

  • Coste de uso: entre 20 y 30 céntimos por documento para la extracción.

  • Fee mensual: se paga una tarifa fija por tener el procesador activo (en torno a 60 € al mes), salvo que se automatice la baja del recurso en las horas de inactividad.

  • Latencia y ubicación: Las nuevas funcionalidades suelen estar disponibles antes en EE. UU. que en la UE, y desplegar el modelo en EE. UU. puede suponer más latencia y consideraciones legales (RGPD).


4. Modelos LLM Multimodales: Una Nueva Generación de Soluciones


4.1 ¿Por Qué Probar Modelos Multimodales?

Con la llegada de modelos generativos capaces de procesar tanto texto como imágenes (por ejemplo, GPT o Gemini), surge una alternativa menos rígida que los procesadores custom. Estos modelos pueden entender instrucciones o “prompts” donde se describe la tarea y se aporta la imagen.

  • No requieren un etiquetado exhaustivo para cada tipo de documento.

  • Flexibilidad y rapidez en la configuración: basta con diseñar un buen prompt para solicitar la información deseada.


4.2 Técnicas de Extracción

Extracción por bloques:

  • Agrupar campos cercanos en la imagen (ej.: “altura total, anchura, peso”) y solicitarle al modelo que extraiga todos estos en una sola instrucción.

  • Evitar “saltos” entre lugares muy alejados dentro del mismo prompt, ya que puede confundir al modelo.

Extracción individual:

  • En casos de campos muy distantes en la imagen o poco claros, a veces extraerlos por separado mejora la precisión.

  • Implica lanzar varios prompts si se requiere más de un valor.


4.3 Coste y Escalabilidad

Comparado con los procesadores custom:

  • No hay un fee fijo por tener el servicio activo.

  • En muchos casos, la API de los modelos multimodales resulta más barata según su tamaño y el número de tokens consumidos.

  • Escalabilidad casi inmediata: podemos pasar de procesar pocos documentos a miles, siempre que se disponga de capacidad de cómputo.


5. Retos Técnicos y Soluciones Efectivas

5.1 Marcas de Agua en la Imagen

En documentos con una marca de agua de fondo (incluso pequeña), tanto el OCR como los modelos multimodales suelen confundir el texto. A la vista humana, la marca es ignorable, pero el algoritmo ve el texto superpuesto.

Solución:

  • Filtrado de la imagen reduciendo resolución o modificando contraste hasta que el texto de la marca se vuelva ilegible para el modelo.

  • Emplear librerías de OCR sencillas (p. ej., Tesseract) para “reconocer y descartar” lo que probablemente sea parte de la marca de agua antes de la extracción final.

5.2 Rotación de Imágenes

Cuando la foto llega rotada o inclinada, la extracción se ve afectada. Aunque algunos OCRs ofrecen detección automática de rotación, no siempre es fiable.

Solución:

  • Uso de Tesseract para estimar la rotación y un índice de confianza.

  • Rotar la imagen en 4 ángulos (0°, 90°, 180°, 270°), pasar cada una por Tesseract y elegir la que brinde el índice de confianza más alto.

  • Este proceso aumenta la precisión al identificar la orientación correcta antes de extraer los campos.


6. Conclusiones y Perspectivas Futuras

  1. Procesadores Custom vs. LLM Multimodales

    • Costo: Los LLM suelen ser más atractivos si el volumen de documentos es alto, al no tener costos fijos mensuales.

    • Precisión: Entrenando un procesador a medida se pueden lograr grandes resultados, pero la flexibilidad de un modelo multimodal permite adaptarse a documentos muy diversos.

    • Facilidad de implementación: Los LLM reducen drásticamente la necesidad de etiquetar centenares de documentos.

  2. Importancia del Preprocesado

    • La corrección de rotación y la eliminación o reducción del impacto de marcas de agua son pasos clave para garantizar que las herramientas de extracción funcionen adecuadamente.

  3. Mirada al Futuro

    • Modelos de próxima generación, con capacidades avanzadas de razonamiento, posiblemente manejen mejor documentos complejos y distintos escenarios sin tanto preprocesado.

    • Se espera que aparezcan plataformas que ofrezcan una interfaz de etiquetado sencilla para LLM, permitiendo un ajuste fino sin tener que retrainar todo el modelo.

  4. Recomendaciones para Nuevos Proyectos

    • Evaluar el ROI según el volumen de documentos y la complejidad de los mismos.

    • Diseñar un pipeline flexible donde se puedan incorporar rápidamente nuevos pasos de preprocesado.

    • Mantener un entorno de pruebas para comparar la precisión entre un procesador custom y un modelo multimodal, antes de desplegar en producción.


7. Recursos y Bibliografía


8. Anexos (Opcional)

Anexo A: Ejemplo de Prompt para LLM Multimodal

Prompt: “Observa la imagen adjunta. Necesito que extraigas los siguientes campos: ‘Altura total’, ‘Anchura’, ‘Peso’. Si un campo no se ve claramente, indica ‘No legible’. Proporciona la respuesta en formato JSON:{"Altura total": "x", "Anchura": "y", "Peso": "z"}.”

Anexo B: Tabla Comparativa de Desafíos

Desafío

Causa

Solución Propuesta

Efectividad

Marcas de agua

Texto de fondo confunde al algoritmo

Filtrar imagen (bajar resolución, contraste)

Alta

Rotación de la imagen

Fotografía no escaneada, ángulos variables

Algoritmo de detección de rotación (Tesseract, etc.)

Media-Alta

Latencia en UE vs. EE.UU

Novedades se despliegan antes en EE.UU; retardo de red

Elegir región UE si se requiere cumplir RGPD

Variable

Conclusión Final

La extracción de información a partir de imágenes de documentos es un proceso que combina técnicas de OCR, algoritmos de preprocesado y, cada vez más, la potencia de modelos multimodales. La elección de la solución idónea depende del presupuesto, la diversidad de documentos y la escala del proyecto. Pese a que los procesadores entrenados “ad hoc” ofrecen grandes precisiones, los LLM multimodales se han convertido en una excelente alternativa por su reducción de costes, su flexibilidad y su rápida capacidad de adaptación sin necesidad de etiquetar gran cantidad de datos.

Mantenerse actualizado con las últimas novedades en IA y contar con un pipeline de preprocesamiento robusto son elementos clave para garantizar el éxito en proyectos de digitalización y extracción de información a gran escala.

7 views0 comments

Comentários


bottom of page