¿Cuánto coste extra añade CoT?

Multiplica los tokens de salida por 2-5× típicamente. En tareas complejas el razonamiento puede ser largo (300-1.500 tokens extra). A precios 2026: 0,005-0,05 € extra por consulta. Si la mejora de precisión justifica el coste (decisiones críticas, datos limpios), merece la pena.

¿CoT funciona en todos los modelos?

Mejor en modelos grandes. Claude Sonnet 4.5, GPT-4o, Gemini 1.5+, Llama 3.3 70B+ : CoT funciona bien. En modelos pequeños (Llama 8B, Phi, Mistral 7B base): CoT a veces empeora (razonan mal y arrastran el error a la respuesta). Para modelos pequeños suele compensar fine-tuning específico en CoT.

¿Diferencia entre CoT clásico y extended thinking de Claude?

CoT clásico : razonamiento visible en la respuesta, mezclado con la salida. Extended thinking (Claude Sonnet 4+) : razonamiento interno con presupuesto controlable (ej. 4.000 tokens de pensamiento), separado de la respuesta final. Más limpio para interfaces de usuario. Coste: los tokens de pensamiento se facturan aparte.

¿Cuándo evitar CoT?

En tareas simples donde no aporta (clasificación binaria, sentiment básico, traducción). En aplicaciones donde la latencia es crítica (chatbots conversacionales con respuesta inmediata). En modelos pequeños donde puede empeorar. Cuando el coste extra de tokens no se justifica con mejora de calidad.

¿Qué es self-consistency?

Variante de CoT: ejecutar el mismo prompt N veces (típicamente 5-10) con temperatura >0, obtener N respuestas con razonamientos potencialmente distintos, elegir la respuesta más frecuente . Mejora robustez en problemas con respuesta única. Coste: N× tokens. Útil en problemas críticos (matemáticas, lógica) donde un error es costoso.

¿CoT ayuda contra alucinaciones?

Indirectamente sí. Al pedirle al modelo razonar antes de concluir, suele verificar internamente los hechos antes de afirmar. No elimina alucinaciones, pero reduce frecuencia. Combinar CoT con RAG y "responde NO_INFO si no encuentras dato en contexto" es lo más efectivo en empresa.

¿Cómo combino CoT con structured output JSON?

Patrón limpio: pedir JSON con dos campos: reasoning (string con el razonamiento) y answer (la respuesta estructurada). El modelo genera primero el razonamiento dentro del JSON, luego la respuesta. Permite parseo automático y auditoría del razonamiento. Soportado nativamente por function calling en Claude/GPT.

Glosario · IA Técnica

¿Qué es Chain-of-Thought y por qué pedirle al LLM "piensa paso a paso" mejora todo?

Q: ¿Qué frase usar para activar Chain-of-Thought?

La frase clásica: "Piensa paso a paso" (en inglés, su equivalente popularizado por el paper de Kojima 2022). Variantes que funcionan: "Razona antes de responder", "Desglosa el problema en pasos", "Analiza criterio por criterio antes de concluir". Para casos estructurados, definir los pasos: "Paso 1: identifica X. Paso 2: evalúa Y. Paso 3: concluye Z".

Técnica de prompting que pide al modelo razonar antes de responder. Mejora precisión en tareas complejas: cálculos, decisiones, diagnósticos. Aumenta latencia, baja errores.

Aplicar CoT a tus prompts

Actualizado mayo 2026

Definición

Chain-of-Thought: hacer que el modelo razone explícitamente antes de concluir.

Chain-of-Thought (CoT) o "cadena de pensamiento" es una técnica de prompt engineering que pide al LLM generar su razonamiento paso a paso antes de dar la respuesta final. La instrucción canónica: "piensa paso a paso" (en inglés, la frase clásica equivalente con think step by step). Suena trivial, pero mejora la precisión en tareas complejas en muchos casos.

La técnica se popularizó tras el paper de Wei et al. (2022) que mostró que LLMs grandes resolvían problemas matemáticos y de razonamiento mucho mejor si se les pedía mostrar el trabajo antes de responder. La intuición: el modelo dedica "tokens de pensamiento" a desglosar el problema, lo que da más espacio para llegar a la solución correcta que disparando una respuesta inmediata.

En 2024-2026 ha evolucionado hacia conceptos relacionados: extended thinking en Claude Sonnet 4 (modo donde el modelo genera razonamiento interno antes de responder, con presupuesto de tokens controlable), reasoning tokens en modelos como o1 de OpenAI (razonamiento oculto al usuario pero contabilizado en coste), y self-consistency (CoT múltiples veces y elegir la respuesta más frecuente).

En una pyme española en 2026, CoT aporta en tareas donde el modelo "se equivoca por ir rápido": cálculos multi-paso, decisiones legales o financieras con criterios, diagnósticos técnicos, razonamientos sobre datos. Coste: respuesta más larga (más tokens, más latencia). Beneficio: precisión mayor en problemas complejos. Para tareas simples, CoT es overkill y solo añade coste sin mejora.

Cuándo funciona

Seis tareas donde Chain-of-Thought mejora dramáticamente

Donde "pensar antes" hace diferencia medible.

Cálculos multi-paso

Calcular margen tras descuentos por volumen, IVA y comisiones. Sin CoT: errores aritméticos frecuentes. Con CoT: desglose paso a paso, sustancialmente más correcto.

Decisiones legales o normativas

"¿Este contrato cumple LSSI?". Sin CoT: sí/no superficial. Con CoT: el modelo enumera criterios, revisa cada uno, concluye. Razonamiento auditable.

Diagnósticos técnicos

"¿Qué falla en este log de errores?". CoT estructura la búsqueda: tipo error → cuándo ocurre → posibles causas → más probable. Razonamiento similar a debugging humano.

Razonamientos sobre datos

"¿Por qué bajó la conversión este mes?". CoT desglosa hipótesis: estacionalidad, cambios de producto, problemas técnicos. Análisis más completo que respuesta directa.

Cualificación de leads compleja

Aplicar framework MEDDIC a un caso: el CoT obliga al modelo a evaluar cada criterio antes de decidir prioridad. Resultado más fundamentado.

Comparativas multi-criterio

Comparar 3 herramientas SaaS contra 8 criterios. CoT estructura la comparación criterio por criterio antes de recomendar. Más sólido que "elige B".

Variantes

Cinco variantes de Chain-of-Thought en uso real

CoT ha evolucionado en los últimos años. Variantes prácticas para producción.

Zero-shot CoT

Añadir simplemente "Piensa paso a paso antes de responder" al prompt. Sin ejemplos. Funciona en modelos grandes (Claude Sonnet 4+, GPT-4o, Gemini 1.5+). La forma más barata y rápida.

Few-shot CoT

Combinar <a href="/glosario/que-es-few-shot-learning" class="text-magnetia-red underline">few-shot</a> con CoT: cada ejemplo muestra input + razonamiento intermedio + output. Funciona mejor que CoT solo en modelos pequeños o tareas muy complejas.

Self-consistency

Ejecutar CoT N veces (típicamente 5-10) con temperatura >0, elegir la respuesta más frecuente entre las N. Mejora robustez. Coste: N× tokens. Útil en problemas críticos.

Extended thinking (Claude)

En Claude Sonnet 4 y 4.5: modo extendido donde el modelo genera razonamiento interno con presupuesto de tokens (ej. 4.000 tokens de pensamiento, después la respuesta). Controlable por API.

Reasoning tokens (OpenAI o1, o3)

Modelos especializados en razonamiento. Generan tokens internos no visibles al usuario pero contabilizados en factura. Sustancialmente mejores en problemas matemáticos y de razonamiento complejo.

Errores comunes

Cinco errores típicos al usar Chain-of-Thought

Usar CoT en tareas triviales

Pedir CoT para "¿este texto es positivo o negativo?" es overkill. Triplica coste y latencia sin mejora. CoT solo en tareas donde el razonamiento aporta valor real.

No medir el impacto vs coste

Asumir que CoT siempre mejora. A veces no, o lo hace marginalmente con 3-5× más tokens. Medir contra <a href="/glosario/que-es-evaluacion-llm" class="text-magnetia-red underline">eval propio</a>: si mejora justifica el coste, mantener; si no, eliminar.

Exponer razonamiento al usuario final

En interfaces de usuario, mostrar todo el razonamiento puede confundir. Patrón: usar CoT internamente, mostrar solo la respuesta final (con detalles si el usuario clica "ver razonamiento").

CoT en modelos demasiado pequeños

En modelos pequeños (<7B parámetros sin fine-tuning específico), CoT puede generar razonamiento incorrecto que lleva a peor respuesta. La técnica funciona bien en modelos grandes; en pequeños puede empeorar.

No combinar con structured output

CoT en formato libre dificulta parseo automático. Solución: razonamiento estructurado (<thinking> tags o JSON con campo "reasoning" + "answer"). Permite procesar respuesta + auditar razonamiento.

Cómo se relaciona con otros conceptos

Chain-of-Thought en el mapa de técnicas de prompting.

CoT es una técnica de prompt engineering, complementaria a zero-shot y few-shot. Se combina con ambas: zero-shot CoT (solo instrucción "piensa paso a paso") y few-shot CoT (ejemplos que muestran razonamiento). Las combinaciones dan los mejores resultados en tareas complejas.

En agentes IA, CoT es la base del razonamiento ReAct (Reasoning + Acting): el agente alterna entre "pensar" y "actuar" llamando a herramientas. Sin CoT, los agentes son cadenas rígidas; con CoT, se vuelven adaptables a problemas complejos.

CoT se cruza con evaluación LLM: cuando un modelo juez evalúa respuestas, frecuentemente se le pide CoT en su evaluación ("razona criterio por criterio antes de dar puntuación"). Mejora consistencia y permite auditar la evaluación.

Para pymes españolas con tareas complejas que necesitan IA (análisis legal, diagnóstico técnico, scoring multi-criterio), en Magnetia diseñamos prompts con CoT cuando aporta. Servicio integrado en automatización de procesos con IA, cofinanciable Kit Consulting.

Preguntas frecuentes

Dudas que nos hacéis llegar

La frase clásica: "Piensa paso a paso" (en inglés, su equivalente popularizado por el paper de Kojima 2022). Variantes que funcionan: "Razona antes de responder", "Desglosa el problema en pasos", "Analiza criterio por criterio antes de concluir". Para casos estructurados, definir los pasos: "Paso 1: identifica X. Paso 2: evalúa Y. Paso 3: concluye Z".

45 min, sin compromiso

¿Tu LLM falla en tareas complejas?

Diagnóstico: revisamos prompts, identificamos dónde aporta CoT, medimos mejora real contra coste. Solo aplicamos CoT donde justifica.

Pedir diagnóstico Ver Kit Consulting IA →

¿Qué es Chain-of-Thought y por qué pedirle al LLM "piensa paso a paso" mejora todo?

Chain-of-Thought: hacer que el modelo razone explícitamente antes de concluir.

Seis tareas donde Chain-of-Thought mejora dramáticamente

Cálculos multi-paso

Decisiones legales o normativas

Diagnósticos técnicos

Razonamientos sobre datos

Cualificación de leads compleja

Comparativas multi-criterio

Cinco variantes de Chain-of-Thought en uso real

Zero-shot CoT

Few-shot CoT

Self-consistency

Extended thinking (Claude)

Reasoning tokens (OpenAI o1, o3)

Cinco errores típicos al usar Chain-of-Thought

Usar CoT en tareas triviales

No medir el impacto vs coste

Exponer razonamiento al usuario final

CoT en modelos demasiado pequeños

No combinar con structured output

Chain-of-Thought en el mapa de técnicas de prompting.

Dudas que nos hacéis llegar

¿Tu LLM falla en tareas complejas?

IA por sector (51)

Generación de leads por ciudad (49)

Automatización IA por ciudad (13)

Google Ads por ciudad (18)

CRO web por ciudad (7)

Consultoría IA por ciudad (10)

Sector + servicio (52)

Guías largas (15)

Guías escritas por consultores en activo

IA, agentes y automatización (19)

Generación de leads y outbound (14)

Web, ads y SEO (14)

Kit Consulting (5)

Por sector (15)

Términos de IA, ventas y marketing B2B

Herramientas y alternativas