Q: ¿Cuál es la diferencia práctica entre prompt y system prompt?

El system prompt son instrucciones permanentes del asistente que no cambian llamada a llamada: rol, tono, formato, reglas. El user prompt es la entrada concreta de esta llamada: el email, la pregunta, la factura. Las APIs (Anthropic, OpenAI, Azure) las separan en parámetros distintos (system="..." y messages=[{role:"user", content:"..."}]). Mezclarlos en una sola cadena es código de playground, no de producción.

Q: ¿Conviene usar LangChain o trabajar con la SDK directa?

Para pymes pequeñas y casos simples, la SDK directa de Anthropic o OpenAI es más sencilla, más rápida y depura mejor. LangChain añade abstracciones que tienen sentido si combinas muchos modelos, manejas agentes complejos, o reutilizas mucho código entre proyectos. Para un único caso de uso productivo (clasificador, extractor, resumen), SDK directa gana. Para sistemas multi-agente con muchas integraciones, LangChain o LlamaIndex pueden ahorrar trabajo.

Question 1

¿Cuál es la diferencia práctica entre prompt y system prompt?

Accepted Answer

El system prompt son instrucciones permanentes del asistente que no cambian llamada a llamada: rol, tono, formato, reglas. El user prompt es la entrada concreta de esta llamada: el email, la pregunta, la factura. Las APIs (Anthropic, OpenAI, Azure) las separan en parámetros distintos (system="..." y messages=[{role:"user", content:"..."}]). Mezclarlos en una sola cadena es código de playground, no de producción.

Question 2

¿Qué es exactamente "few-shot prompting"?

Accepted Answer

Few-shot significa incluir en el prompt unos pocos (2-10) ejemplos de input → output esperado antes de pedirle al modelo la tarea real. El modelo "aprende" el patrón implícito de los ejemplos y lo replica. Es el truco más rentable de prompt engineering: 3-5 ejemplos bien elegidos suben la consistencia entre 20% y 40% en clasificación, extracción y formato. Cero-shot (sin ejemplos) deja al modelo improvisar, lo cual rara vez es aceptable en producción.

Question 3

¿Conviene usar JSON estricto o texto libre?

Accepted Answer

JSON estricto SIEMPRE si la respuesta la procesa código (parser, integración, base de datos). Texto libre solo para casos donde la respuesta la lee un humano directamente (redactar un email, escribir un resumen). En cuanto haya un parser entre LLM y consumo, JSON. Y validar el JSON contra esquema en código (Zod, Pydantic) aunque la API garantice "structured output".

Question 4

¿Cuánto cuesta activar prompt caching y qué condiciones tiene?

Accepted Answer

Activar caching no cuesta dinero en sí — son flags en el SDK. La parte cacheada se cobra 10× menos en lecturas posteriores. Condiciones: la parte cacheable no puede cambiar entre llamadas, y las llamadas tienen que llegar dentro de la ventana TTL del proveedor (Anthropic 5 minutos por defecto, ampliable a 1 hora; OpenAI 5-60 min; Bedrock similar). Para un sistema con tráfico continuo de pyme, fácilmente las llamadas caen dentro del TTL.

Question 5

¿Cómo evalúo un prompt sin un eval set ya hecho?

Accepted Answer

Empiezas con 20 casos: lo coges de inputs reales del último mes en tu sistema y los etiquetas a mano con el output que tú considerarías correcto. 1-2 horas de trabajo. Esos 20 casos son tu eval set v1. Cada cambio de prompt los corre y mide accuracy/recall/lo que aplique. A medida que aparecen casos nuevos o fallos, añade al set. En 3-6 meses tienes 80-150 casos, suficiente para evals robustos.

Question 6

¿Conviene usar LangChain o trabajar con la SDK directa?

Accepted Answer

Para pymes pequeñas y casos simples, la SDK directa de Anthropic o OpenAI es más sencilla, más rápida y depura mejor. LangChain añade abstracciones que tienen sentido si combinas muchos modelos, manejas agentes complejos, o reutilizas mucho código entre proyectos. Para un único caso de uso productivo (clasificador, extractor, resumen), SDK directa gana. Para sistemas multi-agente con muchas integraciones, LangChain o LlamaIndex pueden ahorrar trabajo.

Question 7

¿Qué pasa con jailbreaks e inyección de prompt?

Accepted Answer

En cualquier sistema productivo que reciba texto de usuarios externos hay riesgo de prompt injection (alguien intenta sobreescribir tus instrucciones). Mitigaciones: (1) NO meter inputs de usuario directamente en system prompt; (2) usar etiquetas claras tipo XML para delimitar input no confiable ("<user_input>..."); (3) validar outputs contra esquema antes de actuar sobre ellos; (4) para acciones críticas, supervisión humana. No hay solución 100% pero estas 4 reducen riesgo a niveles aceptables para pymes.

Question 8

¿Cada cuánto debo revisar y ajustar el prompt en producción?

Accepted Answer

Mensual el primer trimestre, trimestral después. En la revisión mensual: sample de 30-50 outputs, identifica patrones de fallo nuevos, añade al eval set, ajusta prompt si la regresión es clara. Si hay cambio de modelo del proveedor (Claude 4 → Claude 5, GPT-4 → GPT-5), regresión completa antes de subir el nuevo. No dejes el prompt sin tocar 12 meses: los modelos cambian y tu caso también.

Diseño de prompts para flujos productivos: del playground a producción.

Dos disciplinas distintas con la misma sintaxis.

Lo que va en system y lo que va en user.

Cuántos ejemplos meter y cómo

Cero-shot · Solo para casos triviales

3-5 ejemplos · Sweet spot productivo

10+ ejemplos · Solo si hay muchos casos borde

JSON validado, no texto libre.

Lo que necesitas en repo para no romper nada al "mejorar" un prompt

Set de evaluación (eval set) versionado

Métricas automáticas por tipo de tarea

CI que corre evals antes de subir cambios

Histórico de versiones del prompt

Sample manual mensual

Pagar menos sin perder calidad.

Workflow recomendado paso a paso.

Prototipa en playground 30 min

Estructura system + few-shot

Crea eval set 20-50 casos

Activa caching y monitoriza

Lanza piloto 4 semanas + review

Dudas que nos hacéis llegar

¿Quieres llevar tus prompts del playground a producción seria?