Fine-tuning vs RAG: cuándo usar cada uno.
Decisión crítica en proyectos IA pyme. Fine-tuning enseña al modelo a comportarse distinto. RAG le da acceso a tu información en tiempo real. Cuándo uno, cuándo otro, cuándo los dos juntos.
Actualizado mayo 2026
Dos técnicas distintas, dos problemas distintos.
Fine-tuning es entrenar más a un modelo base (GPT, Claude, Llama, Mistral) sobre tus datos específicos para que aprenda un comportamiento, estilo, formato o dominio concreto. El modelo "aprende" patrones nuevos que se quedan en sus pesos. Util cuando necesitas que el modelo se comporte distinto al default.
RAG (Retrieval-Augmented Generation) es darle al modelo acceso a información externa (documentos, base datos) en tiempo de inferencia. El modelo no aprende los datos: los consulta cada vez que responde. Util cuando necesitas que el modelo conozca tu información, actualizada y trazable. Ver sistema RAG paso a paso.
La confusión típica: "necesito que el modelo conozca nuestros productos, voy a hacer fine-tuning". Casi siempre la respuesta correcta es RAG. Fine-tuning para conocimiento puro es caro, frágil, difícil de actualizar y suele rendir peor que RAG. Fine-tuning sí brilla cuando necesitas comportamiento (formato salida, estilo, decisión técnica especializada), no conocimiento. Ver también qué es RAG y qué es fine-tuning.
Cuándo uno, cuándo otro
RAG para conocimiento
Atención cliente que responde con tu documentación. Asistente interno que conoce políticas, manuales, productos. Buscador semántico catálogo. Análisis documental jurídico/contable. La información cambia, la trazabilidad importa.
Fine-tuning para comportamiento
Modelo que genera código en tu estilo. Clasificador de tickets en categorías propias. Modelo que extrae datos estructurados de documentos en formato JSON tuyo. Modelo médico/legal que decide según protocolo específico.
RAG + Fine-tuning combinados
Asistente médico que responde con guías clínicas propias (RAG) en formato y tono de tu organización (fine-tuning). Asistente comercial que conoce catálogo (RAG) y sigue script ventas concreto (fine-tuning). Casos sofisticados.
Cuánto cuesta cada uno (datos 2026).
1. RAG: coste setup y operativo. Setup: 8K-35K€ pyme estándar (embeddings + vector DB + UI + lógica). Operativo: coste tokens LLM (modelo base sin fine-tuning) + hosting vector DB + mantenimiento. Para pyme con 1.000-10.000 consultas/mes: 80-450€/mes operativo. Manejable.
2. Fine-tuning: coste setup y operativo. Setup: dataset + entrenamiento + evaluación. Entre 6K-50K€ según volumen datos y modelo. OpenAI fine-tuning GPT-4o: 25-300€ entrenamiento + tokens más caros en inferencia (2-3x base). Llama o Mistral self-hosted: GPU + tiempo desarrollo. Mantenimiento: re-entrenamiento periódico al cambiar datos.
3. Coste oculto fine-tuning: actualización. Si tu información cambia (catálogo, política, documentación), fine-tuning queda obsoleto rápido. Hay que re-entrenar. RAG solo necesita actualizar índice (mucho más rápido y barato).
4. Coste oculto RAG: ingeniería. RAG no es "subir PDFs y listo". Requiere ingeniería: chunking bueno, embeddings adecuados, retrieval híbrido (vector + keyword), re-ranking, evaluación. RAG mal hecho da resultados peores que LLM genérico. Ver sistema RAG paso a paso.
5. Coste oculto ambos: evaluación. Sistema sin evaluación es sistema sin control. Set evaluación con casos test, métricas (precisión, alucinaciones, satisfacción), seguimiento continuo. Inversión 5-15% sobre coste total. Sin esto, no sabes si funciona. Ver evaluación LLM pyme.
Cómo decidir RAG, fine-tuning o ambos
Paso 1 · ¿El problema es conocimiento o comportamiento?
"El modelo no sabe X" → conocimiento → RAG. "El modelo no se comporta como queremos" → comportamiento → fine-tuning. Si ambos, ambos.
Paso 2 · ¿La información cambia?
Si los datos cambian más de una vez al mes: RAG. Fine-tuning requeriría re-entrenamiento continuo (caro y frágil). Si datos estáticos y comportamiento muy específico: fine-tuning puede compensar.
Paso 3 · ¿Necesitas trazabilidad de la fuente?
Sectores regulados (legal, médico, financiero), atención cliente que cita políticas: necesario poder mostrar de dónde sale la respuesta. RAG da trazabilidad nativa. Fine-tuning no.
Paso 4 · ¿Volumen y patrón estable de salida?
Si necesitas salida muy estructurada (JSON exacto, etiquetas concretas, formato rígido) con miles de ejecuciones/día: fine-tuning puede dar consistencia mejor. Para casos esporádicos: prompt engineering basta.
Paso 5 · Prueba prompt engineering primero
Antes de fine-tuning o RAG complejo, agotar prompt engineering: few-shot, chain-of-thought, structured output. Muchas veces resuelve sin coste. Si tras prompts buenos sigue fallando, escalar a RAG o fine-tuning. Ver <a href="/blog/prompt-engineering-avanzado-2026" class="text-magnetia-red underline">prompt engineering avanzado</a>.
Lo que vemos mal en proyectos IA pyme
Fine-tuning para conocimiento
Pyme que pide fine-tuning para que "el modelo conozca nuestros productos". Casi siempre la respuesta es RAG. Fine-tuning para conocimiento es caro, frágil, rinde peor. RAG es 5-10x más barato y mejor.
RAG sin evaluación
Montar RAG, lanzar y rezar. Sin evaluación, no sabes si funciona, las respuestas son fiables o el sistema alucina. Set de evaluación es 10% del esfuerzo y duplica calidad.
No probar prompt engineering primero
Saltar directo a fine-tuning o RAG sin agotar prompts. Muchos casos resuelve un prompt sistema bueno + few-shot. Antes de complejidad, simplicidad bien hecha.
Self-hosted Llama cuando ChatGPT API basta
Pyme que monta Llama 3 en GPU porque "queremos control". Termina con sistema más caro, menor calidad, mantenimiento agotador. Para 90% pymes, ChatGPT API o Claude API son la mejor opción. Self-hosted solo cuando hay razón clara (privacidad extrema, regulación específica, volumen brutal).
Dudas que nos hacéis llegar
¿Necesitas decidir RAG, fine-tuning o ambos para tu proyecto IA?
Diagnóstico técnico + arquitectura recomendada + presupuesto realista pyme. Sin sobre-ingeniería, sin underselling.