La digitalización de documentos ha traído consigo un reto constante: la extracción confiable de información cuando las imágenes no siguen un patrón estandarizado. Iluminación variable, inclinaciones, tipos de documento diferentes y resoluciones desiguales hacen que, en muchos casos, un OCR básico sea insuficiente. En este artículo, presento la experiencia de un proyecto real donde abordamos este desafío y exploramos diversas soluciones: desde el uso de OCRs tradicionales y procesadores custom hasta la migración hacia modelos LLM (Large Language Models) multimodales. Veremos ventajas, desventajas, costes, y por qué la combinación de técnicas de preprocesado y nuevos modelos generativos puede ofrecernos mejores resultados a un coste más reducido.

1. Introducción
La demanda de automatizar la extracción de datos clave (nombre del cliente, fecha, importe de una factura, etc.) a partir de imágenes ha crecido notablemente. Si bien el OCR nos permite leer el texto de una imagen y conocer la ubicación de cada palabra, el problema real suele radicar en vincular correctamente la etiqueta y el valor. Un ligero cambio de ángulo, una inclinación diferente o la presencia de fondos con marcas de agua pueden conducir a resultados inexactos.
En este artículo, expondré:
Cómo iniciamos con OCRs básicos y descubrimos sus limitaciones.
Nuestra experiencia entrenando procesadores custom (como los de Google) para ajustarlos a documentos específicos.
El salto hacia modelos multimodales, como GPT o Gemini, que no requieren un etiquetado tan exhaustivo y brindan gran flexibilidad.
Los retos de preprocesamiento (rotación, marcas de agua) y las soluciones que encontramos.

2. OCR Básico: Primeros Pasos y Limitaciones
2.1 Reconocimiento de Texto y Ubicación de Vértices
Los OCRs básicos, como Tesseract o servicios en la nube, ofrecen:
Reconocimiento del texto presente en la imagen.
Posicionamiento (coordenadas) de cada palabra.
Sin embargo, cuando se busca extraer información puntual (por ejemplo, “Altura total” o “Peso”), la lectura meramente secuencial del texto puede confundir etiquetas con valores contiguos. En condiciones ideales —documentos bien escaneados, sin inclinaciones— los OCRs obtienen resultados aceptables. Pero la realidad nos mostró documentos con distintos ángulos de captura, poca iluminación o resoluciones irregulares.
2.2 Problemas Clave
Confusión espacial: El modelo tomaba como “valor” la palabra o el número que aparecía más cerca en la imagen, sin considerar que podría estar ubicado encima, debajo o en diagonal.
Etiquetas repetidas: A veces, el documento repetía “Altura” en distintos lugares, y el valor correcto se asociaba erróneamente al etiquetado equivocado.
La principal lección aprendida fue que el simple reconocimiento de texto no era suficiente para mantener la correspondencia etiqueta-valor de forma fiable.
3. Procesadores Custom: Entrenamiento y Despliegue
3.1 Selección de Plataforma y Análisis de Mercado
Para refinar la extracción, existían en el mercado procesadores custom (p. ej., Google Document AI o Amazon Textract), que permiten entrenar un modelo con ejemplos de documentos etiquetados. Esta opción, sin embargo, suele implicar un coste elevado, tanto en la etapa de entrenamiento como en la predicción por documento.
Tras probar varias alternativas, descubrimos que la suite de Google ofrecía muy buen desempeño:
Modelos preentrenados que reconocen layouts comunes (facturas, recibos, pasaportes, etc.).
Modelos personalizados que requieren una fase de etiquetado de datos para adaptarse a documentos específicos.
3.2 Entrenamiento y Costes
Entrenar el modelo consistió en:
Etiquetar al menos 100 documentos para indicar dónde se encuentra cada campo de interés.
Subir estos datos a la plataforma y dejar que el modelo aprendiera a extraer la información.
Ventajas:
Logramos un 90% de precisión tras el etiquetado y el entrenamiento.
El modelo aprendía la disposición espacial típica del documento y se adaptaba mejor que un OCR básico.
Desventajas:
Coste de uso: entre 20 y 30 céntimos por documento para la extracción.
Fee mensual: se paga una tarifa fija por tener el procesador activo (en torno a 60 € al mes), salvo que se automatice la baja del recurso en las horas de inactividad.
Latencia y ubicación: Las nuevas funcionalidades suelen estar disponibles antes en EE. UU. que en la UE, y desplegar el modelo en EE. UU. puede suponer más latencia y consideraciones legales (RGPD).
4. Modelos LLM Multimodales: Una Nueva Generación de Soluciones
4.1 ¿Por Qué Probar Modelos Multimodales?
Con la llegada de modelos generativos capaces de procesar tanto texto como imágenes (por ejemplo, GPT o Gemini), surge una alternativa menos rígida que los procesadores custom. Estos modelos pueden entender instrucciones o “prompts” donde se describe la tarea y se aporta la imagen.
No requieren un etiquetado exhaustivo para cada tipo de documento.
Flexibilidad y rapidez en la configuración: basta con diseñar un buen prompt para solicitar la información deseada.
4.2 Técnicas de Extracción
Extracción por bloques:
Agrupar campos cercanos en la imagen (ej.: “altura total, anchura, peso”) y solicitarle al modelo que extraiga todos estos en una sola instrucción.
Evitar “saltos” entre lugares muy alejados dentro del mismo prompt, ya que puede confundir al modelo.
Extracción individual:
En casos de campos muy distantes en la imagen o poco claros, a veces extraerlos por separado mejora la precisión.
Implica lanzar varios prompts si se requiere más de un valor.
4.3 Coste y Escalabilidad
Comparado con los procesadores custom:
No hay un fee fijo por tener el servicio activo.
En muchos casos, la API de los modelos multimodales resulta más barata según su tamaño y el número de tokens consumidos.
Escalabilidad casi inmediata: podemos pasar de procesar pocos documentos a miles, siempre que se disponga de capacidad de cómputo.
5. Retos Técnicos y Soluciones Efectivas
5.1 Marcas de Agua en la Imagen
En documentos con una marca de agua de fondo (incluso pequeña), tanto el OCR como los modelos multimodales suelen confundir el texto. A la vista humana, la marca es ignorable, pero el algoritmo ve el texto superpuesto.
Solución:
Filtrado de la imagen reduciendo resolución o modificando contraste hasta que el texto de la marca se vuelva ilegible para el modelo.
Emplear librerías de OCR sencillas (p. ej., Tesseract) para “reconocer y descartar” lo que probablemente sea parte de la marca de agua antes de la extracción final.
5.2 Rotación de Imágenes
Cuando la foto llega rotada o inclinada, la extracción se ve afectada. Aunque algunos OCRs ofrecen detección automática de rotación, no siempre es fiable.
Solución:
Uso de Tesseract para estimar la rotación y un índice de confianza.
Rotar la imagen en 4 ángulos (0°, 90°, 180°, 270°), pasar cada una por Tesseract y elegir la que brinde el índice de confianza más alto.
Este proceso aumenta la precisión al identificar la orientación correcta antes de extraer los campos.
6. Conclusiones y Perspectivas Futuras
Procesadores Custom vs. LLM Multimodales
Costo: Los LLM suelen ser más atractivos si el volumen de documentos es alto, al no tener costos fijos mensuales.
Precisión: Entrenando un procesador a medida se pueden lograr grandes resultados, pero la flexibilidad de un modelo multimodal permite adaptarse a documentos muy diversos.
Facilidad de implementación: Los LLM reducen drásticamente la necesidad de etiquetar centenares de documentos.
Importancia del Preprocesado
La corrección de rotación y la eliminación o reducción del impacto de marcas de agua son pasos clave para garantizar que las herramientas de extracción funcionen adecuadamente.
Mirada al Futuro
Modelos de próxima generación, con capacidades avanzadas de razonamiento, posiblemente manejen mejor documentos complejos y distintos escenarios sin tanto preprocesado.
Se espera que aparezcan plataformas que ofrezcan una interfaz de etiquetado sencilla para LLM, permitiendo un ajuste fino sin tener que retrainar todo el modelo.
Recomendaciones para Nuevos Proyectos
Evaluar el ROI según el volumen de documentos y la complejidad de los mismos.
Diseñar un pipeline flexible donde se puedan incorporar rápidamente nuevos pasos de preprocesado.
Mantener un entorno de pruebas para comparar la precisión entre un procesador custom y un modelo multimodal, antes de desplegar en producción.
7. Recursos y Bibliografía
Tesseract OCR: https://github.com/tesseract-ocr/tesseract
Google Cloud Document AI: https://cloud.google.com/document-ai
Amazon Textract: https://aws.amazon.com/textract/
OpenAI GPT: https://openai.com
Anthropic: https://www.anthropic.com/
8. Anexos (Opcional)
Anexo A: Ejemplo de Prompt para LLM Multimodal
Prompt: “Observa la imagen adjunta. Necesito que extraigas los siguientes campos: ‘Altura total’, ‘Anchura’, ‘Peso’. Si un campo no se ve claramente, indica ‘No legible’. Proporciona la respuesta en formato JSON:{"Altura total": "x", "Anchura": "y", "Peso": "z"}.”
Anexo B: Tabla Comparativa de Desafíos
Desafío | Causa | Solución Propuesta | Efectividad |
Marcas de agua | Texto de fondo confunde al algoritmo | Filtrar imagen (bajar resolución, contraste) | Alta |
Rotación de la imagen | Fotografía no escaneada, ángulos variables | Algoritmo de detección de rotación (Tesseract, etc.) | Media-Alta |
Latencia en UE vs. EE.UU | Novedades se despliegan antes en EE.UU; retardo de red | Elegir región UE si se requiere cumplir RGPD | Variable |
Conclusión Final
La extracción de información a partir de imágenes de documentos es un proceso que combina técnicas de OCR, algoritmos de preprocesado y, cada vez más, la potencia de modelos multimodales. La elección de la solución idónea depende del presupuesto, la diversidad de documentos y la escala del proyecto. Pese a que los procesadores entrenados “ad hoc” ofrecen grandes precisiones, los LLM multimodales se han convertido en una excelente alternativa por su reducción de costes, su flexibilidad y su rápida capacidad de adaptación sin necesidad de etiquetar gran cantidad de datos.
Mantenerse actualizado con las últimas novedades en IA y contar con un pipeline de preprocesamiento robusto son elementos clave para garantizar el éxito en proyectos de digitalización y extracción de información a gran escala.
Comentários