LlamaIndex, Haystack y Langchain: qué framework para RAG.
Los tres frameworks RAG más usados en proyectos pyme 2026 comparados sin pelotazo. Qué hace cada uno, dónde brilla, dónde sufre, y cómo decidir cuál encaja en tu caso.
Actualizado mayo 2026
Tres filosofías para resolver el mismo problema: RAG en producción.
LlamaIndex es el framework "data-first" para IA: especializado en ingesta, indexación y retrieval avanzado. Si tu caso es RAG sobre corpus grande con calidad de retrieval crítica, es la apuesta más afinada. Python principalmente.
Haystack (deepset) viene del mundo NLP académico-industrial: pipelines explícitos, gran ecosistema de readers y rerankers, foco fuerte en búsqueda y respuesta a preguntas. Maduro, sólido, menos modas pasajeras que Langchain.
Langchain es el framework generalista de LLMs: hace RAG pero también agentes, chains, memoria. Para RAG puro queda algo verboso comparado con LlamaIndex o Haystack. Ver Vercel AI SDK vs Langchain y sistema RAG paso a paso.
Encaje práctico
Resumen para decidir rápido.
LlamaIndex · RAG sofisticado
Corpus 10k+ documentos, retrieval avanzado (auto-merging, recursive, hybrid), agentes documentales. Sweet spot cuando la calidad del retrieval marca la diferencia y el equipo es Python con perfil ML.
Haystack · pipelines explícitos
Pipelines DAG claros, debugging fácil, búsqueda + answering muy maduros. Buena documentación. Encaja en equipos que valoran control e ingeniería robusta sobre experimentación rápida.
Langchain · si ya está en tu stack
Si tu app ya usa Langchain por agentes o chains, hacer RAG dentro tiene sentido. Si arrancas de cero y el caso es RAG puro, LlamaIndex o Haystack son más rentables en código y rendimiento.
Dónde gana cada uno en RAG real.
1. Ingesta de documentos. LlamaIndex gana en variedad de loaders nativos (PDF, web, Notion, Confluence, base datos, Google Drive) y calidad de chunking. Haystack hace muy buen trabajo en pipelines de preprocesado explícitos. Langchain tiene loaders pero menos pulidos.
2. Retrieval avanzado. LlamaIndex brilla en técnicas modernas: auto-merging retriever, recursive retrieval, query engines compuestos, sub-question generation. Haystack tiene hybrid retrieval (BM25 + denso) muy maduro y reranking nativo con cross-encoders. Langchain ofrece lo básico, lo avanzado requiere código propio.
3. Evaluación. Haystack ha invertido mucho en evaluation (deepset Cloud). LlamaIndex tiene módulos de evaluación decentes. Langchain delega en LangSmith. Para RAG serio: evaluar es obligatorio. Ver qué es evaluación LLM.
4. Producción y observabilidad. Haystack tiene fama de ser robusto en producción (pipelines explícitos, fácil debugging). LlamaIndex y Langchain requieren observabilidad externa (Langfuse, LangSmith). Ver observabilidad LLM pyme.
5. Comunidad y velocidad de innovación. Langchain y LlamaIndex iteran rapidísimo (a veces demasiado, breaking changes). Haystack más estable, ciclo de release más espaciado. Si tu prioridad es estabilidad, Haystack. Si experimentación: los otros dos.
Cómo elegir framework RAG en 5 pasos
Paso 1 · Calidad de retrieval requerida
Si tu caso tolera retrieval simple (FAQ corporativa con 100 docs): los tres valen. Si necesitas retrieval avanzado (10k+ docs heterogéneos): LlamaIndex tiene ventaja técnica.
Paso 2 · Equipo y stack
Python con perfil ML: cualquiera de los tres. Si el equipo viene de NLP académico, Haystack le resulta familiar. Si viene de DS y experimentación: LlamaIndex. Si ya hay Langchain en la casa: Langchain.
Paso 3 · Necesidad de pipelines explícitos
Si quieres ver el flujo paso a paso y debugging claro: Haystack. Si prefieres "magia" controlada con menos boilerplate: LlamaIndex. Langchain queda en medio.
Paso 4 · Evaluación desde día 1
Sin evaluación, framework da igual. Define set de preguntas-respuestas oro, métricas (faithfulness, context precision, recall), revisa cada cambio. Los tres soportan integración con Ragas, TruLens o módulos propios.
Paso 5 · Prototipo comparativo
3-5 días con cada candidato sobre un subset real del corpus. Mide: precisión retrieval, latencia, líneas de código, dolor en debugging. La elección que parece obvia cambia con datos reales.
Lo que vemos roto en RAG pyme
Chunking default
Usar chunking por caracteres con tamaño default y solapamiento de 0. Resultado: contexto cortado a mitad de frase, retrieval pierde información. Chunking informado por estructura (semántico, sentence, by-header) sube calidad 20-40%.
Sin reranking
Top-k=5 directo del vector DB sin reranker. El reranker (cross-encoder, Cohere Rerank, Voyage Rerank) mejora precisión 15-30% en RAG productivo. Caro en latencia pero rentable.
Embeddings genéricos sin probar alternativas
Default OpenAI text-embedding-3-small sin probar opciones (multilingual-e5, BGE, Voyage). En castellano hay embeddings que rinden mejor que el default. Probar 2-3 antes de productivizar.
Sin set de evaluación
"RAG funciona" sin métrica. Mínimo 30-50 preguntas oro con respuestas esperadas, run periódico, alertas si calidad baja. Sin esto, no sabes si una mejora mejora o empeora.
Checklist RAG pyme
Corpus inventariado y limpio
Documentos identificados, con propietario, con permiso de uso, duplicados eliminados, OCR donde haga falta. RAG sobre corpus sucio da respuestas sucias.
Casos de uso priorizados
5-10 preguntas reales que el RAG debe responder. Sin esto, el sistema responde bonito a preguntas que nadie hace.
Vector DB elegido
pgvector, Qdrant, Pinecone, Weaviate. Para empezar pyme: pgvector si ya tienes Postgres. Ver <a href="/blog/pinecone-vs-weaviate-vs-qdrant" class="text-magnetia-red underline">Pinecone vs Weaviate vs Qdrant</a>.
Modelo LLM definido
Claude, GPT-4o, Gemini o open-source. Para RAG largo: Claude con 200k tokens encaja muy bien. Ver <a href="/blog/elegir-modelo-ia-claude-gpt-llama" class="text-magnetia-red underline">elegir modelo IA</a>.
Plan de evaluación
Set oro mínimo 30-50 preguntas, métricas (faithfulness, context precision, recall), run automatizado. Sin esto, RAG en producción es ruleta. Ver <a href="/glosario/que-es-evaluacion-llm" class="text-magnetia-red underline">qué es evaluación LLM</a>.
Dudas que nos hacéis llegar
¿Vas a montar RAG y dudas qué framework elegir?
Diagnóstico de corpus, casos de uso y stack. Te recomendamos arquitectura y framework con coste honesto. Sin sobre-ingeniería ni infra inútil.