Observabilidad LLM: lo que se mide en sistemas IA productivos.
Sin observabilidad, sistema LLM productivo es caja negra. Trazas por request, calidad muestreada, coste real, latencia, errores. Qué medir, con qué herramientas y cómo actuar cuando se desvía.
Actualizado mayo 2026
Lo que no se mide en LLMs, se degrada en silencio.
Un sistema LLM en producción se degrada por causas que no avisan: drift de datos (los inputs cambian con el tiempo), cambio de modelo (proveedor actualiza versión silenciosamente), casos extremos (entradas que el sistema nunca vio), prompt mal mantenido (cambios sin evaluación). Sin observabilidad, te enteras cuando el cliente reclama.
La observabilidad LLM es la capacidad de saber qué pasa dentro: cada request, qué prompt, qué modelo, qué respuesta, cuánto costó, cuánto tardó, si fue correcta. Trazas completas, métricas agregadas, alertas en desvíos. Pyme con observabilidad detecta problemas en horas; sin ella, en semanas o nunca.
En Magnetia montamos observabilidad como parte estándar de cualquier proyecto IA productivo. Las herramientas 2026 son maduras y baratas para pyme: LangSmith (cloud), Langfuse (open source self-hosted), Helicone (cloud), Phoenix (open source). El gap entre tener observabilidad y no tenerla es enorme. Ver también MLOps lite pyme y evaluación LLM pyme.
Cuatro métricas core de sistema LLM productivo
Calidad (sample evaluation)
Evaluación calidad muestreada de respuestas reales. Manual semanal + automática continua (LLM-as-judge sobre rubric definido). Métricas: precisión, relevancia, alucinaciones, satisfacción usuario.
Coste (tokens y €)
Tokens entrada/salida por request, coste agregado por feature, por usuario, por día. Detección picos coste, optimización. Modelo más barato cuando posible. Cache donde aplica.
Latencia (p50, p95, p99)
Tiempo respuesta por percentiles. p99 es lo que percibe usuario peor caso. Streaming reduce percepción aunque tiempo total similar. Alertas si p95 sube de umbral.
Errores y fallback
Tasa errores API (timeouts, rate limits, errores modelo), uso fallback (modelo backup), recuperación automática. Sin esto, fallos silenciados llegan al usuario.
Stack realista para observabilidad LLM en pyme.
1. LangSmith (LangChain). Cloud, fácil, integración nativa con LangChain. Trazas, evaluación, prompt management, datasets. Plan free para uso pequeño, plan Plus 39$/mes/user, plan Business 99$+/mes/user. Para pyme con 10-100K llamadas/mes funciona bien. Atado al ecosistema LangChain (no obligado, pero más fácil con él).
2. Langfuse. Open source self-hosted o cloud. Trazas detalladas, prompt management, evaluación, datasets, A/B testing. Self-hosted gratis (Docker + Postgres). Cloud free tier generoso + planes pagos. Cada vez más popular en 2026, alternativa potente a LangSmith.
3. Helicone. Cloud, proxy entre tu app y OpenAI/Anthropic/etc. Plug-and-play: cambias base URL del cliente, todas tus llamadas se trazan automáticamente. Free tier generoso, planes pagos baratos. Excelente para empezar rápido.
4. Phoenix (Arize). Open source self-hosted, fuerte en evaluación y debugging. Más enfocado a data scientists. Para pyme con perfil técnico avanzado.
5. Stack DIY ligero. Si quieres mínimo: logging estructurado JSON a tu base datos (Postgres, ClickHouse) + dashboards Grafana o Metabase. Funciona si tienes equipo DevOps con tiempo. Para pyme sin perfil DevOps: mejor usar herramienta dedicada (LangSmith, Langfuse, Helicone). Ver MLOps lite pyme.
Cómo montar observabilidad LLM en pyme
Semana 1 · Elegir herramienta
Según volumen y stack: LangSmith si LangChain, Langfuse si self-hosted preferido, Helicone si quieres plug-and-play rápido. Probar versión free 1-2 semanas antes de pagar.
Semana 2 · Integración
Modificar código cliente LLM para trazado. En la mayoría: 5-15 líneas código + variable entorno. Helicone: solo cambiar base URL. Langfuse/LangSmith: SDK + decorator o wrapper. Probar en dev.
Semana 3 · Métricas y dashboards
Configurar métricas core: latencia, coste, errores, volumen. Dashboards por feature. Filtros por usuario, modelo, prompt versión. Visualización agregada y per-request.
Semana 4 · Evaluación continua
Set evaluación 30-100 casos. Ejecución automática semanal sobre muestreo producción. LLM-as-judge para evaluación a escala + revisión humana 10% muestreada. Tracking métricas calidad histórico.
Semana 5-6 · Alertas y operativa
Alertas: latencia p95 > umbral, tasa error > 2%, coste diario fuera rango, métricas calidad caída > 10%. Slack o email. Runbook básico: qué hacer cuando suena alerta.
Lo que vemos mal sin observabilidad LLM
Sin trazas por request
Cuando usuario reclama "esta respuesta es mala", no puedes ver qué prompt exacto, qué modelo, qué versión. Debugging imposible. Trazas por request es base, no opcional.
Sin medición coste real
Pyme con OpenAI bill 1.200€/mes sin saber qué feature lo causa. Cuando viene CFO con "qué es esto", no hay respuesta. Coste por feature + por usuario es palanca control.
Sin evaluación continua
Sistema lanzado, se da por hecho que sigue funcionando. Modelo upgrade silente del proveedor degrada calidad sin que nadie lo note. Cliente sí. Set evaluación + métricas calidad histórico detecta antes.
Alertas sin runbook
Alerta suena, nadie sabe qué hacer. "Tasa error 8%" sin protocolo respuesta es ruido. Runbook breve por tipo alerta (causas típicas, qué revisar, escalado) hace alertas útiles.
Dudas que nos hacéis llegar
¿Tienes IA en producción sin saber qué está pasando dentro?
Setup observabilidad + evaluación continua + alertas + runbook. En 4-6 semanas tu sistema deja de ser caja negra.