¿Qué es Chain-of-Thought y por qué pedirle al LLM "piensa paso a paso" mejora todo?
Técnica de prompting que pide al modelo razonar antes de responder. Mejora precisión en tareas complejas: cálculos, decisiones, diagnósticos. Aumenta latencia, baja errores.
Actualizado mayo 2026
Chain-of-Thought: hacer que el modelo razone explícitamente antes de concluir.
Chain-of-Thought (CoT) o "cadena de pensamiento" es una técnica de prompt engineering que pide al LLM generar su razonamiento paso a paso antes de dar la respuesta final. La instrucción canónica: "piensa paso a paso" (en inglés, la frase clásica equivalente con think step by step). Suena trivial, pero mejora la precisión en tareas complejas en muchos casos.
La técnica se popularizó tras el paper de Wei et al. (2022) que mostró que LLMs grandes resolvían problemas matemáticos y de razonamiento mucho mejor si se les pedía mostrar el trabajo antes de responder. La intuición: el modelo dedica "tokens de pensamiento" a desglosar el problema, lo que da más espacio para llegar a la solución correcta que disparando una respuesta inmediata.
En 2024-2026 ha evolucionado hacia conceptos relacionados: extended thinking en Claude Sonnet 4 (modo donde el modelo genera razonamiento interno antes de responder, con presupuesto de tokens controlable), reasoning tokens en modelos como o1 de OpenAI (razonamiento oculto al usuario pero contabilizado en coste), y self-consistency (CoT múltiples veces y elegir la respuesta más frecuente).
En una pyme española en 2026, CoT aporta en tareas donde el modelo "se equivoca por ir rápido": cálculos multi-paso, decisiones legales o financieras con criterios, diagnósticos técnicos, razonamientos sobre datos. Coste: respuesta más larga (más tokens, más latencia). Beneficio: precisión mayor en problemas complejos. Para tareas simples, CoT es overkill y solo añade coste sin mejora.
Seis tareas donde Chain-of-Thought mejora dramáticamente
Donde "pensar antes" hace diferencia medible.
Cálculos multi-paso
Calcular margen tras descuentos por volumen, IVA y comisiones. Sin CoT: errores aritméticos frecuentes. Con CoT: desglose paso a paso, sustancialmente más correcto.
Decisiones legales o normativas
"¿Este contrato cumple LSSI?". Sin CoT: sí/no superficial. Con CoT: el modelo enumera criterios, revisa cada uno, concluye. Razonamiento auditable.
Diagnósticos técnicos
"¿Qué falla en este log de errores?". CoT estructura la búsqueda: tipo error → cuándo ocurre → posibles causas → más probable. Razonamiento similar a debugging humano.
Razonamientos sobre datos
"¿Por qué bajó la conversión este mes?". CoT desglosa hipótesis: estacionalidad, cambios de producto, problemas técnicos. Análisis más completo que respuesta directa.
Cualificación de leads compleja
Aplicar framework MEDDIC a un caso: el CoT obliga al modelo a evaluar cada criterio antes de decidir prioridad. Resultado más fundamentado.
Comparativas multi-criterio
Comparar 3 herramientas SaaS contra 8 criterios. CoT estructura la comparación criterio por criterio antes de recomendar. Más sólido que "elige B".
Cinco variantes de Chain-of-Thought en uso real
CoT ha evolucionado en los últimos años. Variantes prácticas para producción.
Zero-shot CoT
Añadir simplemente "Piensa paso a paso antes de responder" al prompt. Sin ejemplos. Funciona en modelos grandes (Claude Sonnet 4+, GPT-4o, Gemini 1.5+). La forma más barata y rápida.
Few-shot CoT
Combinar <a href="/glosario/que-es-few-shot-learning" class="text-magnetia-red underline">few-shot</a> con CoT: cada ejemplo muestra input + razonamiento intermedio + output. Funciona mejor que CoT solo en modelos pequeños o tareas muy complejas.
Self-consistency
Ejecutar CoT N veces (típicamente 5-10) con temperatura >0, elegir la respuesta más frecuente entre las N. Mejora robustez. Coste: N× tokens. Útil en problemas críticos.
Extended thinking (Claude)
En Claude Sonnet 4 y 4.5: modo extendido donde el modelo genera razonamiento interno con presupuesto de tokens (ej. 4.000 tokens de pensamiento, después la respuesta). Controlable por API.
Reasoning tokens (OpenAI o1, o3)
Modelos especializados en razonamiento. Generan tokens internos no visibles al usuario pero contabilizados en factura. Sustancialmente mejores en problemas matemáticos y de razonamiento complejo.
Cinco errores típicos al usar Chain-of-Thought
Usar CoT en tareas triviales
Pedir CoT para "¿este texto es positivo o negativo?" es overkill. Triplica coste y latencia sin mejora. CoT solo en tareas donde el razonamiento aporta valor real.
No medir el impacto vs coste
Asumir que CoT siempre mejora. A veces no, o lo hace marginalmente con 3-5× más tokens. Medir contra <a href="/glosario/que-es-evaluacion-llm" class="text-magnetia-red underline">eval propio</a>: si mejora justifica el coste, mantener; si no, eliminar.
Exponer razonamiento al usuario final
En interfaces de usuario, mostrar todo el razonamiento puede confundir. Patrón: usar CoT internamente, mostrar solo la respuesta final (con detalles si el usuario clica "ver razonamiento").
CoT en modelos demasiado pequeños
En modelos pequeños (<7B parámetros sin fine-tuning específico), CoT puede generar razonamiento incorrecto que lleva a peor respuesta. La técnica funciona bien en modelos grandes; en pequeños puede empeorar.
No combinar con structured output
CoT en formato libre dificulta parseo automático. Solución: razonamiento estructurado (<thinking> tags o JSON con campo "reasoning" + "answer"). Permite procesar respuesta + auditar razonamiento.
Chain-of-Thought en el mapa de técnicas de prompting.
CoT es una técnica de prompt engineering, complementaria a zero-shot y few-shot. Se combina con ambas: zero-shot CoT (solo instrucción "piensa paso a paso") y few-shot CoT (ejemplos que muestran razonamiento). Las combinaciones dan los mejores resultados en tareas complejas.
En agentes IA, CoT es la base del razonamiento ReAct (Reasoning + Acting): el agente alterna entre "pensar" y "actuar" llamando a herramientas. Sin CoT, los agentes son cadenas rígidas; con CoT, se vuelven adaptables a problemas complejos.
CoT se cruza con evaluación LLM: cuando un modelo juez evalúa respuestas, frecuentemente se le pide CoT en su evaluación ("razona criterio por criterio antes de dar puntuación"). Mejora consistencia y permite auditar la evaluación.
Para pymes españolas con tareas complejas que necesitan IA (análisis legal, diagnóstico técnico, scoring multi-criterio), en Magnetia diseñamos prompts con CoT cuando aporta. Servicio integrado en automatización de procesos con IA, cofinanciable Kit Consulting.
Dudas que nos hacéis llegar
¿Tu LLM falla en tareas complejas?
Diagnóstico: revisamos prompts, identificamos dónde aporta CoT, medimos mejora real contra coste. Solo aplicamos CoT donde justifica.