LangSmith, Helicone, Langfuse: qué herramienta de observabilidad LLM.
Sin observabilidad, una app LLM en producción es ruleta rusa. Comparativa práctica de las tres herramientas líderes para trazas, evaluación, coste y monitorización en pyme española.
Actualizado mayo 2026
Observabilidad LLM no es luxury. Es supervivencia en producción.
Una aplicación LLM en producción tiene muchas piezas que fallan en silencio: prompts mal renderizados, retrievals que devuelven basura, modelos que alucinan, latencias que se disparan, costes que se descontrolan. Sin trazas, no sabes qué pasó cuando un usuario se queja.
La observabilidad LLM es el equivalente de Datadog o Sentry para apps con modelos generativos: registra cada llamada (prompt, respuesta, latencia, coste, evaluaciones), permite buscar trazas, calcular métricas y detectar deriva. Ver observabilidad LLM pyme y qué es LLMOps.
Las tres herramientas líderes son LangSmith (de Langchain), Helicone y Langfuse. Las tres cubren lo básico (trazas, costes, evaluación). Las diferencias están en filosofía, precio, integración y self-hosting.
Quién es quién
Diferencias de fondo más allá del marketing.
LangSmith · ecosistema Langchain
Hecho por Langchain. Integración nativa con Langchain/LangGraph. Trazas, evaluación, playground de prompts, datasets. Cloud y self-hosted (Enterprise). Precio: gratis hasta 5k trazas/mes, después 39 $/usuario/mes. Encaja si vives en Langchain.
Helicone · proxy LLM
Funciona como proxy entre tu app y el LLM (OpenAI, Anthropic, etc). Integra cambiando una URL base. Trazas, costes, cache, rate limits. Cloud o self-hosted gratis. Sweet spot: pymes que quieren observabilidad mínima sin instrumentar código.
Langfuse · open-source potente
Open-source Apache 2.0. Self-hosted gratis. Cloud desde 29 $/mes pyme. Trazas, evaluación, datasets, prompt management, scoring. Integración con Langchain, LlamaIndex, Vercel AI SDK, OpenAI SDK. Crece en cuota rápido. Nuestra recomendación por defecto.
Dónde gana cada uno.
1. Facilidad de integración. Helicone gana por simplicidad: cambias `https://api.openai.com` por `https://oai.helicone.ai` y ya tienes trazas. Langfuse y LangSmith requieren SDK e instrumentar código, aunque sus integraciones nativas con Langchain/Vercel AI SDK son automáticas.
2. Evaluación y datasets. Langfuse y LangSmith son más fuertes: gestión de datasets, evaluadores LLM-as-judge, scoring por traza, A/B de prompts. Helicone tiene esto pero menos pulido.
3. Coste real pyme. Langfuse self-hosted: 0 € licencia + ~30 €/mes infra VPS. Langfuse Cloud: 29-200 €/mes. LangSmith Cloud: gratis hasta 5k trazas, después 39 $/usuario/mes (puede sumar rápido). Helicone Cloud: 0-200 €/mes según volumen. Para pyme estándar, Langfuse y Helicone salen más baratos.
4. Self-hosting. Langfuse: open-source, fácil deploy con Docker. Helicone: open-source, deploy más exigente. LangSmith: solo self-hosted en plan Enterprise (caro). Si tu prioridad es self-host, Langfuse es la opción más clara.
5. Vendor lock-in. LangSmith está atado a Langchain (no formal pero práctico). Helicone funciona con cualquier proveedor LLM por proxy. Langfuse con cualquier framework. Para no atarte: Langfuse o Helicone.
Elección en 5 pasos
Paso 1 · Stack de tu app LLM
Si usas Langchain como base: LangSmith integra mejor. Si Vercel AI SDK, LlamaIndex o framework propio: Langfuse encaja perfecto. Si solo llamas OpenAI/Anthropic sin framework: Helicone es el más rápido.
Paso 2 · Self-hosted o cloud
Self-hosted por privacidad o coste: Langfuse. Cloud sin DevOps: cualquiera de los tres. Si datos sensibles (sanidad, legal, financiero) no pueden salir de tu infra: Langfuse self-hosted casi obligado.
Paso 3 · Volumen estimado
LangSmith gratis hasta 5k trazas/mes, luego se dispara. Helicone gratis hasta 100k peticiones, después 20 $/100k. Langfuse Cloud Hobby gratis hasta 50k observaciones. Calcula con volumen real, no estimación.
Paso 4 · Necesidad de evaluación
Si quieres LLM-as-judge automático, datasets versionados, A/B de prompts: Langfuse o LangSmith. Si solo trazas y coste: Helicone basta.
Paso 5 · Probar 2 semanas
Las tres tienen plan gratis amplio. Conecta y mide qué te aporta más en tu caso real. La elección a pizarra cambia con uso real.
Lo que vemos roto
Producción sin observabilidad
App LLM en producción y nadie sabe qué prompts se mandan ni qué responde el modelo. Cuando algo falla, semanas perdidas reproduciendo. Mínimo: una de las tres conectada desde día 1.
Trazas pero sin evaluación
Ver trazas está bien, pero sin métricas no detectas deriva. Sumar set evaluación (30-100 casos oro) + run periódico + alertas si calidad baja. Sin esto, observabilidad es solo logs glorificados.
No medir coste por feature
Factura OpenAI sube y no se sabe qué feature consume qué. Tagging por feature o por usuario clave: los tres lo soportan. Sin esto, optimizar coste es a ciegas.
Datos sensibles en cloud sin redacción
Mandar trazas con datos personales a cloud sin masking. Riesgo RGPD. Mínimo: redact campos sensibles antes de enviar, o self-hosted. Ver RGPD pyme práctico.
Checklist mínima
Conectar antes de ir a producción
Observabilidad como requisito previo, no añadido posterior. Una de las tres conectada con trazas, costes y latencias antes del primer usuario real.
Tagging útil
Cada traza con: feature, usuario (anonimizado), versión de prompt, modelo. Sin tagging no puedes filtrar ni atribuir coste.
Set de evaluación curado
30-100 casos oro con respuesta esperada o criterio de calidad. Run automático en cada release del prompt o del modelo. Alertas si métrica clave cae.
Política de retención
Las trazas crecen rápido. Definir cuánto se guarda (90 días típico). Trazas con datos sensibles: TTL más corto o redacción previa.
Dashboard semanal
KPIs revisados cada semana: latencia P50/P95, coste por feature, tasa de error, evaluación. Sin dashboard, la herramienta solo se mira cuando algo arde.
Dudas que nos hacéis llegar
¿Tu app LLM en producción tiene observabilidad seria?
Diagnóstico de tu stack actual, recomendación de herramienta y plan de implementación con evaluación y monitorización. Sin observabilidad, producción es lotería.