¿Pydantic es necesario para structured output?

No es necesario pero muy recomendado en Python. Pydantic define schemas con tipos Python idiomáticos, valida en runtime, genera JSON Schema automáticamente y se integra nativamente con OpenAI SDK, Anthropic SDK, Instructor, LangChain. En TypeScript el equivalente es Zod . Sin estas librerías, defines JSON Schema a mano (más verboso, más errores).

¿Qué librerías facilitan structured output en LLMs?

Las más usadas 2026: Instructor (Pydantic + OpenAI/Anthropic, top elección Python), LangChain (con structured output runnables), LlamaIndex (Pydantic Programs), BAML (declarativo, multi-provider), Outlines (validación estricta con grammar). Para TypeScript: Vercel AI SDK con Zod, LangChain.js .

¿Cuánto cuesta extra structured output?

Casi nada en tokens (el schema en sí es pequeño, 100-500 tokens extra de entrada). El coste real es tiempo de iteración : definir schema bien, validar comportamiento del modelo, ajustar descripciones de campos. 2-5 horas para schema serio en pyme. Recuperado rápido vs alternativa de parsear texto libre.

¿Qué hago si el modelo a veces no cumple schema?

Patrón retry con feedback : si validación falla, devolver al modelo "tu salida no cumple schema, error: X. Reintenta". 2-3 reintentos máximo. Instructor lo automatiza. Si pasa con frecuencia (>5%), hay problema sistémico: schema confuso, prompt mal, o modelo demasiado pequeño. Investigar y ajustar.

¿Structured output funciona en modelos pequeños?

En modelos grandes (Claude Sonnet 4.5, GPT-4o, Gemini 1.5+, Llama 3.3 70B+) funciona muy bien. En modelos pequeños (Llama 8B, Phi-3, Mistral 7B base) suele fallar con schemas complejos. Para modelos pequeños conviene fine-tuning específico en JSON output o usar grammar-constrained decoding (Outlines) que fuerza salida válida a nivel de tokens.

¿Puedo tener campos opcionales en el schema?

Sí. JSON Schema soporta required array que lista campos obligatorios; el resto son opcionales. Patrón: campos esenciales required, campos contextuales opcionales con default null . Mejora flexibilidad: si el input no tiene info para un campo, el modelo lo deja en null en lugar de inventar.

¿Cómo combino structured output con RAG?

Patrón estándar: el LLM recibe chunks recuperados como contexto + schema con campos {answer, sources[], confidence} . Modelo responde con respuesta estructurada citando las fuentes específicas usadas. Permite parseo automático, auditoría de qué chunks usó, y validación de respuesta (si sources está vacío, no debería contestar).

Glosario · IA Técnica

¿Qué es Structured Output y por qué es la base para integrar un LLM con cualquier sistema?

Q: ¿Diferencia entre JSON mode y structured outputs strict?

JSON mode garantiza que la salida es JSON sintácticamente válido (parseable) pero el contenido del schema depende del prompt. Structured outputs strict (OpenAI) o schema enforcement (Anthropic, Gemini) garantizan que la salida cumple un schema concreto que defines (campos exactos, tipos, enums). Para producción, usar strict / schema enforcement, no solo JSON mode.

Forzar que el LLM responda en JSON con schema estricto. Hace que la salida sea procesable por otros sistemas: CRM, ERP, BBDD. Sin esto, parseas con regex frágiles.

Integrar LLM con tu stack

Actualizado mayo 2026

Definición

Structured output: salida del LLM en formato estructurado y validable.

Structured output (salida estructurada) es la capacidad de un LLM de responder en un formato estricto y procesable por código (típicamente JSON con schema definido), en lugar de texto libre. Permite usar el LLM como una pieza más de tu arquitectura: la salida alimenta directamente otros sistemas (BBDD, API, CRM, ERP) sin parseo frágil con regex.

En 2024-2026 se ha vuelto capacidad nativa de los grandes providers: OpenAI tiene "JSON mode" y "Structured Outputs" con strict schema, Anthropic ofrece tool use que devuelve JSON validado, Google Gemini tiene response_schema, Mistral y Llama soportan formato JSON con prompt. Antes de 2023 había que parsear texto libre con regex o reintentar muchas veces.

La técnica funciona de dos formas principales: (1) "JSON mode" — el modelo garantiza que la salida es JSON válido (parseable), pero el schema concreto depende del prompt; (2) "structured outputs / function calling con schema" — defines un schema JSON (campos, tipos, enums, required) y el modelo se compromete a respetarlo exactamente. La opción 2 es la usada en producción seria.

En una pyme española en 2026, structured output aplica siempre que el output del LLM tiene que ser procesado por otro sistema: extracción de campos de facturas a tu ERP, clasificación de tickets con categorías predefinidas, generación de fichas de producto en BBDD, parsing de currículums, scoring de leads. Sin structured output, parseas prosa con regex frágiles que se rompen al menor cambio de redacción del modelo.

Casos prácticos

Seis casos donde structured output es la solución correcta

Donde el output del LLM debe alimentar otro sistema sin fricción.

Extracción de facturas

Schema con campos {number, date, vendor, amount, IVA, items[]}. LLM extrae con formato garantizado. Pasa directo al ERP. Sin schema, parseo manual error-prone.

Clasificación con taxonomía propia

Schema con enum cerrado: {"category": "soporte" | "ventas" | "facturación" | "spam"}. Modelo SOLO devuelve uno de esos valores. Sin enum, inventa categorías nuevas.

Análisis de currículums

Schema con {nombre, experiencia[], formación[], skills[], idiomas[]}. CV en PDF entra, JSON estructurado sale. Carga directa en ATS. Reduce manual de RRHH dramáticamente.

Lead scoring multi-criterio

Schema con {score: 0-100, fit: alto|medio|bajo, intent: comprar|investigar|info, next_action}. Modelo evalúa lead y devuelve estructura procesable por CRM.

Parsing de emails entrantes

Schema con {intent, urgency, customer_id, requested_action, requires_human: boolean}. Email entra, JSON estructurado sale. Auto-asignación a equipo correcto.

Generación de fichas de producto

Schema con {title, description, features[], specs{}, price, category}. LLM genera ficha completa con formato exacto para tu CMS/PIM. Validación automática antes de publicar.

Cómo implementarlo

Cinco pasos para implementar structured output bien

Lo que diferencia una implementación que aguanta producción de un MVP frágil.

Definir schema con Pydantic o Zod

En Python: <strong>Pydantic</strong> con campos tipados, descripciones, validadores. En TypeScript: <strong>Zod</strong>. Genera schema JSON automáticamente. Validación garantizada en runtime.

Usar API nativa del provider

OpenAI: <code>response_format</code> con <code>strict: true</code>. Anthropic: tool use con schema. Gemini: <code>response_schema</code>. Mistral: JSON mode + schema. Cada provider tiene su sintaxis, pero el patrón es similar.

Validar salida en runtime

Aunque el provider garantice schema, validar siempre con Pydantic/Zod antes de procesar. Defensa en profundidad: si algo falla, lo detectas antes de meter datos basura en BBDD.

Manejar errores con retry

Si la salida no valida (raro pero pasa): devolver al modelo "error de schema, corrige y reintenta" con detalles. Reintentar 2-3 veces antes de fallar. Patrón estándar en LangChain, Instructor.

Combinar con campo "reasoning"

Añadir al schema campo <code>reasoning: string</code> donde el modelo razona antes de la respuesta estructurada. Combina <a href="/glosario/que-es-chain-of-thought" class="text-magnetia-red underline">CoT</a> con structured output. Mejora calidad sin perder estructura.

Errores comunes

Cinco errores típicos al implementar structured output

Schema demasiado libre

Campos tipo <code>extra: string</code> sin descripción ni enum. El modelo mete cualquier cosa. Mejor: cada campo con tipo estricto, descripción clara, enum cuando aplica.

No usar enums donde encajan

Para categorías, prioridad, estado: enum cerrado. "category": ["A", "B", "C"]. El modelo nunca devolverá categoría inventada. Sin enum, puede generar variantes ("a", "Categoria A", "tipo A").

Schemas demasiado anidados

Estructuras de 5 niveles de profundidad con arrays de objetos de objetos. Modelos modernos lo soportan pero el rendimiento baja. Para casos complejos: dividir en pasos secuenciales o aplanar el schema.

No validar en código tras recibir

Confiar en que el provider siempre devuelve schema válido. 99% de veces sí, pero ese 1% rompe producción. Validación con Pydantic/Zod en tu código es defensa básica.

No medir métrica de format compliance

No saber qué % de respuestas son schema-válidas. Si baja del 99%, hay problema (prompt cambia, modelo cambia versión). Métrica básica de observabilidad de structured output.

Cómo se relaciona con otros conceptos

Structured output en el mapa de IA empresarial.

Structured output es prerrequisito para integrar LLMs en sistemas serios. Se apoya técnicamente en function calling: la mayoría de providers usan el mismo mecanismo subyacente (schema con tipos) para ambos casos. La diferencia es semántica: function calling ejecuta acción, structured output solo formatea.

Se combina con few-shot (ejemplos en formato exacto del schema mejoran cumplimiento) y con chain-of-thought (campo "reasoning" antes de la respuesta estructurada). En RAG es común estructurar la respuesta con campos {answer, sources[], confidence}.

En agentes IA es esencial: el modelo necesita devolver decisiones estructuradas (qué tool llamar, con qué argumentos, qué estado), no prosa libre. Sin structured output los agentes son frágiles. Frameworks como LangChain, LlamaIndex, Instructor lo automatizan.

Para pymes españolas que integren LLM con CRM/ERP/BBDD, en Magnetia diseñamos schemas y validaciones como parte estándar de automatización de procesos con IA. Cofinanciable Kit Consulting.

Preguntas frecuentes

Dudas que nos hacéis llegar

JSON mode garantiza que la salida es JSON sintácticamente válido (parseable) pero el contenido del schema depende del prompt. Structured outputs strict (OpenAI) o schema enforcement (Anthropic, Gemini) garantizan que la salida cumple un schema concreto que defines (campos exactos, tipos, enums). Para producción, usar strict / schema enforcement, no solo JSON mode.

45 min, sin compromiso

¿Quieres que tu LLM alimente directamente tu sistema?

Diseñamos schemas con Pydantic/Zod, integramos con tu CRM/ERP, validamos en runtime y montamos retry pattern. LLM como pieza fiable del stack, no como caja negra.

Pedir diagnóstico Ver Kit Consulting IA →

¿Qué es Structured Output y por qué es la base para integrar un LLM con cualquier sistema?

Structured output: salida del LLM en formato estructurado y validable.

Seis casos donde structured output es la solución correcta

Extracción de facturas

Clasificación con taxonomía propia

Análisis de currículums

Lead scoring multi-criterio

Parsing de emails entrantes

Generación de fichas de producto

Cinco pasos para implementar structured output bien

Definir schema con Pydantic o Zod

Usar API nativa del provider

Validar salida en runtime

Manejar errores con retry

Combinar con campo "reasoning"

Cinco errores típicos al implementar structured output

Schema demasiado libre

No usar enums donde encajan

Schemas demasiado anidados

No validar en código tras recibir

No medir métrica de format compliance

Structured output en el mapa de IA empresarial.

Dudas que nos hacéis llegar

¿Quieres que tu LLM alimente directamente tu sistema?

IA por sector (51)

Generación de leads por ciudad (49)

Automatización IA por ciudad (13)

Google Ads por ciudad (18)

CRO web por ciudad (7)

Consultoría IA por ciudad (10)

Sector + servicio (52)

Guías largas (15)

Guías escritas por consultores en activo

IA, agentes y automatización (19)

Generación de leads y outbound (14)

Web, ads y SEO (14)

Kit Consulting (5)

Por sector (15)

Términos de IA, ventas y marketing B2B

Herramientas y alternativas