¿Few-shot funciona en todos los modelos?

Sí, funciona en todos los LLMs modernos (Claude, GPT-4, Gemini, Llama 3+). Funcionaba peor en modelos antiguos pequeños. Los grandes y nuevos (Claude Sonnet 4.5, GPT-4o) responden muy bien a few-shot. En modelos pequeños fine-tuneados, ya tienes el patrón integrado, así que few-shot aporta menos.

¿Cuánto cuesta few-shot extra en tokens?

Depende de longitud de ejemplos. Típico pyme: 200-800 tokens extra por llamada por los ejemplos. A precios 2026: 0,001-0,01 € extra por llamada. Prompt caching (Anthropic, OpenAI) reduce ese coste 50-90% si los ejemplos son los mismos en cada llamada — válido para few-shot estático.

¿Cuál es la diferencia entre few-shot y in-context learning?

"In-context learning" (ICL) es el término académico que engloba zero-shot, one-shot y few-shot. Few-shot es un caso de ICL con 2-5 ejemplos. En lenguaje práctico se usan como sinónimos. Lo importante: ningún cambio en el modelo, solo en el prompt.

¿Few-shot reemplaza a RAG?

No, son complementarios. Few-shot enseña al modelo CÓMO responder (formato, estilo, lógica de clasificación). RAG le da conocimiento concreto (tu catálogo, tu normativa). En sistemas avanzados se combinan: RAG recupera el contexto + few-shot guía la estructura de la respuesta.

¿Few-shot dinámico es mucho mejor que estático?

Para tareas con mucha variabilidad sí: en clasificación de tickets de soporte con 30 categorías, few-shot dinámico (elegir 5 ejemplos similares a la query) mejora 5-15 puntos sobre estático. Para tareas más uniformes (transformación con tono fijo), estático suele bastar. Coste de implementación: few-shot dinámico requiere base de ejemplos indexada (similar a RAG).

¿Cómo combino few-shot con chain-of-thought?

En cada ejemplo, mostrar no solo input/output sino también razonamiento intermedio : "Input: ... Razonamiento: paso 1, paso 2, paso 3. Output: ...". El modelo aprende a razonar paso a paso antes de concluir. Mejora dramática en tareas complejas (cálculos, decisiones multi-criterio).

¿Existe el riesgo de "memorizar" los ejemplos del prompt?

En el sentido estricto no: el modelo no se reentrena. Pero hay un riesgo más sutil: si tus ejemplos sesgan hacia ciertos patrones, el modelo extrapola con ese sesgo. Por eso es crítico tener diversidad y cobertura en los ejemplos elegidos, y medir métricas en producción para detectar si el sesgo se filtra.

Glosario · IA Técnica

¿Qué es Few-Shot Learning y por qué 3-5 ejemplos en el prompt cambian todo?

Q: ¿Cuántos ejemplos son ideales en few-shot?

Para la mayoría de tareas pyme: 3-5 ejemplos bien elegidos. Por debajo de 3, poca señal; por encima de 7, rendimientos decrecientes y coste extra de tokens. Para tareas complejas con muchos sub-tipos, hasta 10. Más allá de 10, considera fine-tuning como alternativa.

La técnica de prompt engineering con mejor ROI: añadir un puñado de ejemplos input/output al prompt para que el modelo "vea" el patrón antes de responder. Sin entrenamiento, sin fine-tuning.

Optimizar prompts de tu LLM

Actualizado mayo 2026

Definición

Few-shot learning: aprender de pocos ejemplos sin entrenar el modelo.

Few-shot learning es la técnica de incluir un pequeño número de ejemplos input/output (típicamente 2-5) dentro del prompt para guiar la respuesta del LLM. El modelo no se reentrena: aprende el patrón "en contexto" leyendo los ejemplos y aplicándolo a la nueva entrada. Es la técnica de prompt engineering con mejor relación valor/esfuerzo.

El concepto se hizo popular con GPT-3 en 2020. Brown et al. mostraron que LLMs grandes podían realizar tareas nuevas sin entrenamiento adicional, simplemente mostrando ejemplos en el prompt. Tres modos: zero-shot (sin ejemplos, solo instrucción), one-shot (un ejemplo) y few-shot (2-5+ ejemplos). En 2026 sigue siendo la primera herramienta a probar antes de RAG o fine-tuning.

La estructura típica de un prompt few-shot: (1) instrucción/contexto/rol, (2) N ejemplos en formato "Input: X / Output: Y", (3) el caso real que quieres resolver. El modelo extrapola el patrón. Funciona especialmente bien en tareas con formato estructurado (clasificación, extracción, transformación) donde la salida tiene una forma clara.

En una pyme española en 2026, el few-shot resuelve sin más infraestructura: clasificar correos por intención, extraer datos de textos libres, traducir con tono específico, generar respuestas en formato propio. Mejora típica: pasar del 30-50% de aciertos con prompt vago al 80-90% con 3-5 ejemplos bien elegidos. Sin coste técnico adicional más allá de unos tokens extra por llamada.

Cuándo aplicar

Seis casos donde few-shot da mejora dramática

Donde lo hemos visto pasar de respuestas mediocres a calidad de producción.

Clasificación con categorías propias

Clasificar correos en "comercial / soporte / facturación / spam". Sin ejemplos: el modelo inventa categorías. Con 5 ejemplos por categoría: accuracy 88-95%. Mejora más grande de toda la lista.

Extracción estructurada con schema propio

Sacar campos de facturas a JSON propio. Mostrar 3 facturas reales con su JSON esperado dispara la precisión y reduce errores de formato a casi cero.

Transformación de texto con tono

Convertir notas internas en respuesta de soporte profesional. Mostrar 3-5 ejemplos del tono deseado y el modelo lo replica mejor que con cualquier descripción.

Generación con formato fijo

Generar fichas de producto con secciones específicas (descripción + ventajas + ficha técnica + CTA). Ejemplos en formato exacto evitan que el modelo se invente estructura propia.

Casos límite y excepciones

Mostrar al modelo ejemplos de casos raros (factura sin IVA, ticket sin fecha) con su respuesta correcta enseña a manejarlos. Sin esto, el modelo extrapola erróneamente.

Estilo de respuesta específico

Si quieres respuestas siempre en bullets, siempre con cita de fuente, siempre cerrando con CTA: 3 ejemplos enseñan el patrón mejor que un párrafo de descripción.

Cómo elegir ejemplos

Cinco reglas para elegir los ejemplos correctos

Diversidad: cubre distintos casos

No elegir 5 ejemplos del mismo tipo. Cubre las variantes principales que verás en producción. Si clasificas correos en 6 categorías, al menos 1 ejemplo por categoría (o las 4 más comunes).

Incluye casos difíciles

Tendencia natural: elegir ejemplos donde el modelo ya acierta. Error: no aprende donde fallaba. Mejor: incluir 1-2 casos límite, ambiguos, o de excepción con la respuesta correcta.

Formato exactamente igual al output esperado

Si quieres JSON, los ejemplos en JSON con comillas correctas, indentación consistente. El modelo replica formato literal. Inconsistencia en ejemplos genera inconsistencia en salida.

Orden importa: relevantes al final

Investigación muestra que en prompts largos, los modelos prestan más atención a inicio y final. Coloca los ejemplos más representativos cerca del input real para mejor extrapolación.

Cantidad: 3-5 suele bastar

Por debajo de 3: poca señal. Por encima de 7-10: rendimientos decrecientes y coste extra de tokens. Sweet spot pyme: <strong>3-5 ejemplos bien elegidos</strong>. Para tareas muy complejas, hasta 10.

Variantes y técnicas avanzadas

Few-shot dinámico, retrieval-augmented y chain-of-thought con ejemplos.

Few-shot estático: los mismos 3-5 ejemplos en cada llamada. Es el patrón básico. Few-shot dinámico: en cada llamada eliges los ejemplos más relevantes a la pregunta concreta (buscas en una BBDD de ejemplos por similitud con la query). Combina RAG con few-shot: cuando hay mucha variabilidad, el few-shot dinámico mejora aún más la precisión.

Combinar few-shot con chain-of-thought: en cada ejemplo, no solo mostrar input/output sino también el razonamiento intermedio. El modelo aprende a razonar paso a paso antes de responder. Especialmente útil en problemas multi-paso (cálculos, decisiones legales, diagnósticos).

Comparado con zero-shot: zero-shot es más rápido y barato pero menos preciso en tareas estructuradas. Few-shot añade tokens (más coste) pero suele justificarlo con ganancia de precisión. Prompt caching (Anthropic, OpenAI) reduce el coste extra de few-shot hasta 90% cuando los ejemplos son los mismos en cada llamada.

Frente a fine-tuning: few-shot es la primera opción siempre. Más rápido (cambios en minutos), más barato (sin entrenamiento), más flexible (cambias ejemplos sin reentrenar). Solo cuando few-shot bien hecho llega a techo y necesitas más, plantear fine-tuning. Ver fine-tuning vs RAG.

Errores comunes

Cinco errores típicos al usar few-shot

Ejemplos contradictorios

Dos ejemplos similares con respuestas distintas (sin justificación). El modelo se confunde y elige el patrón con menor coste de razonar. Auditar consistencia de tus ejemplos.

Pocos ejemplos para tarea compleja

Una tarea con 15 sub-tipos y solo 3 ejemplos: el modelo extrapola mal. Si tu dominio tiene mucha variabilidad, sube a 6-10 ejemplos cubriendo los sub-tipos principales.

No iterar con casos reales

Diseñar few-shot a priori y no revisarlo. Mejor: deploy inicial, recoger 50 ejemplos donde falla, ajustar los ejemplos del prompt para cubrir esos casos. Iteración semanal.

Ejemplos muy largos o muy cortos

Ejemplos de 2 líneas cuando el output esperado es de 500 palabras: el modelo extrapola mal el tamaño. Ejemplos en el rango de longitud real del output esperado.

No medir el impacto

Asumir que añadir ejemplos siempre mejora. A veces no, o lo hace marginalmente. Medir contra dataset de evaluación antes/después. Ver <a href="/glosario/que-es-evaluacion-llm" class="text-magnetia-red underline">evaluación LLM</a>.

Preguntas frecuentes

Dudas que nos hacéis llegar

Para la mayoría de tareas pyme: 3-5 ejemplos bien elegidos. Por debajo de 3, poca señal; por encima de 7, rendimientos decrecientes y coste extra de tokens. Para tareas complejas con muchos sub-tipos, hasta 10. Más allá de 10, considera fine-tuning como alternativa.

45 min, sin compromiso

¿Tus prompts dan respuestas mediocres?

Diagnóstico: revisamos prompts actuales, casos de fallo y construimos versión optimizada con few-shot. Resultado típico: paso del 50-70% al 85-95% de aciertos en tareas estructuradas.

Pedir diagnóstico Ver Kit Consulting IA →

¿Qué es Few-Shot Learning y por qué 3-5 ejemplos en el prompt cambian todo?

Few-shot learning: aprender de pocos ejemplos sin entrenar el modelo.

Seis casos donde few-shot da mejora dramática

Clasificación con categorías propias

Extracción estructurada con schema propio

Transformación de texto con tono

Generación con formato fijo

Casos límite y excepciones

Estilo de respuesta específico

Cinco reglas para elegir los ejemplos correctos

Diversidad: cubre distintos casos

Incluye casos difíciles

Formato exactamente igual al output esperado

Orden importa: relevantes al final

Cantidad: 3-5 suele bastar

Few-shot dinámico, retrieval-augmented y chain-of-thought con ejemplos.

Cinco errores típicos al usar few-shot

Ejemplos contradictorios

Pocos ejemplos para tarea compleja

No iterar con casos reales

Ejemplos muy largos o muy cortos

No medir el impacto

Dudas que nos hacéis llegar

¿Tus prompts dan respuestas mediocres?

IA por sector (51)

Generación de leads por ciudad (49)

Automatización IA por ciudad (13)

Google Ads por ciudad (18)

CRO web por ciudad (7)

Consultoría IA por ciudad (10)

Sector + servicio (52)

Guías largas (15)

Guías escritas por consultores en activo

IA, agentes y automatización (19)

Generación de leads y outbound (14)

Web, ads y SEO (14)

Kit Consulting (5)

Por sector (15)

Términos de IA, ventas y marketing B2B

Herramientas y alternativas