¿Por qué no usar el reranker directamente sobre toda la BBDD?

Porque no escala . Un cross-encoder procesa (query, documento) en una pasada del modelo: para una BBDD de 1M docs habría que evaluar 1M veces el modelo por cada query. Inviable. La división del trabajo (retrieval rápido + reranking caro sobre pocos candidatos) es lo que permite escalar.

¿Cuánto mejora el reranking la calidad de un RAG?

Mejora típica medida en benchmarks reproducibles: NDCG@10 entre +15% y +40% , MRR entre +10% y +30% , Hit@5 entre +5% y +20% . La mejora es mayor cuando: queries son largas o complejas, hay sinónimos importantes, el modelo de embeddings inicial es flojo. En queries muy simples, mejora marginal.

¿Cohere Rerank o un reranker open-source?

Cohere Rerank 3.5 : máxima calidad API, multilingüe top, pagas por uso. Recomendado para arrancar y casos premium. BGE-Reranker-v2-M3 o Jina Reranker v2 : open-source self-hosted, casi al mismo nivel, gratis tras pagar GPU. Para volúmenes altos o datos sensibles, open-source gana en TCO.

¿Cuál es el coste de añadir reranking?

Cohere Rerank : ~2 €/1000 búsquedas. Self-hosted BGE/Jina : gratis tras pagar GPU (GPU modesta tipo T4/A10 sirve, ~150-400 €/mes). En la mayoría de proyectos, coste reranker es <5% del total (el LLM domina). ROI casi siempre positivo.

¿Cuánto añade el reranker a la latencia?

Para 50-100 candidatos: 100-500ms . Cohere Rerank API: 100-300ms típico. Self-hosted en GPU: 50-300ms según modelo y tamaño. Para chat con humanos (>1s aceptable) es invisible. Para sistemas streaming sub-segundo, conviene elegir reranker más ligero o reducir candidatos.

¿Puedo usar un LLM como reranker?

Sí. Patrón "LLM-as-reranker" usa un LLM small (Claude Haiku, GPT-4o-mini, Gemini Flash) con prompt: "ordena estos N docs por relevancia a esta query". Más flexible (puede aplicar criterios custom) pero más caro y lento que rerankers dedicados. Útil cuando los criterios de ranking son específicos del negocio.

¿El reranker reemplaza a los embeddings?

No, los complementa . Embeddings hacen el trabajo pesado (filtrar millones de docs a 50-100 candidatos). Reranker afina (de 50-100 a 5-10). Sin embeddings no hay primera fase; sin reranker la primera fase es la única. Patrón estándar 2026: ambos juntos.

Glosario · AI Dev

¿Qué es el reranking y por qué un RAG sin reranker probablemente esté dejando 30% de calidad encima de la mesa?

Q: ¿Cuánto añade el reranker a la latencia?

Para 50-100 candidatos: 100-500ms . Cohere Rerank API: 100-300ms típico. Self-hosted en GPU: 50-300ms según modelo y tamaño. Para chat con humanos (>1s aceptable) es invisible. Para sistemas streaming sub-segundo, conviene elegir reranker más ligero o reducir candidatos.

Segunda fase de recuperación en RAG: tras la búsqueda vectorial rápida, un modelo cross-encoder reordena los top resultados por relevancia real a la query. Mejora notable de precisión.

Hablar con Magnetia sobre reranking

Actualizado mayo 2026

Definición

Reranking: reordenar candidatos por relevancia real con un modelo más caro.

El reranking es la segunda fase de un pipeline de recuperación moderno. Tras una búsqueda inicial rápida (por similitud de embeddings, BM25 o híbrida) que devuelve los top-50 o top-100 candidatos, un modelo más potente y caro (cross-encoder) los reordena por relevancia real a la query, devolviendo los top-5 o top-10 más relevantes.

La diferencia con embeddings es clave. Un modelo de embeddings (bi-encoder) procesa query y documento por separado y compara vectores; es rápido pero pierde matices contextuales. Un reranker (cross-encoder) procesa query y documento juntos en una sola pasada del modelo; es 10-100x más caro por par pero captura la relevancia real con mucha más precisión.

Por eso el patrón estándar 2026 en sistemas RAG es retrieve + rerank: vector search recupera 50-100 candidatos rápido y barato; reranker reordena solo esos 50-100 (no millones), eligiendo los 5-10 mejores para pasar al LLM. La mejora típica es 20-40% en métricas de retrieval (NDCG@10, MRR, hit rate) según benchmarks reproducibles.

Modelos de reranking principales en 2026: Cohere Rerank 3.5 (API, multilingüe, top en MTEB), Voyage rerank-2 (API, soporta 32K contexto), Jina Reranker v2 (open-source), BGE-Reranker-v2-M3 (open-source, BAAI), mxbai-rerank-large (open-source, Mixedbread). Frameworks como LangChain y LlamaIndex integran rerankers de forma transparente.

Por qué funciona

Diferencias clave bi-encoder vs cross-encoder

Lo que justifica añadir reranker al pipeline.

Bi-encoder (embeddings)

Procesa query y documento por separado. Cada uno se convierte en vector independiente. Comparación final: similitud coseno entre vectores. Permite indexar millones de docs con búsqueda kNN sub-segundo, pero pierde matices contextuales.

Cross-encoder (reranker)

Procesa query y documento juntos: ambos pasan por el transformer en una sola pasada con atención cruzada. Output: score de relevancia directo. 10-100x más caro por par, pero captura la relevancia real con mucha más precisión.

Por qué se combinan

Cross-encoder no escala a millones de docs (haría falta evaluar query × cada doc). Bi-encoder escala pero pierde precisión. La combinación: bi-encoder filtra a top-50/100 candidatos en ms; cross-encoder reordena solo esos en pocos cientos de ms. Lo mejor de ambos.

Mejora medida en retrieval

En benchmarks típicos (BEIR, MS MARCO, MTEB Retrieval) añadir reranker mejora NDCG@10 entre 15-40%, MRR 10-30%, Hit@5 5-20%. La mejora es mayor cuando la query es compleja, larga o tiene matices.

Trade-off latencia

Reranker añade 100-500ms al pipeline. Para chat con humanos es invisible; para sistemas en stream sub-segundo puede importar. Algunos modelos (Cohere Rerank, BGE-reranker-base) están optimizados para latencia baja.

Trade-off coste

Cohere Rerank: ~2 €/1000 búsquedas. Voyage: similar. Open-source self-hosted (BGE, Jina, mxbai): gratis + coste de GPU/CPU. En la mayoría de casos coste es despreciable frente al LLM downstream.

Modelos 2026

Rerankers principales y cuándo elegir cada uno

Resumen práctico para decisión.

Cohere Rerank 3.5

API. Multilingüe top (100+ idiomas, fuerte en español). Soporta hasta 4K tokens. Reranker mejor calidad como API en 2026 según benchmarks.

Voyage rerank-2

API. Soporta 32K tokens (buena opción para docs largos). Calidad competitiva con Cohere en inglés.

Jina Reranker v2

Open-source, 568M parámetros. Multilingüe. Excelente calidad/coste para self-host. CPU usable con quantization.

BGE-Reranker-v2-M3

Open-source, BAAI. Multilingüe. Mejor reranker open-source 2026 según MTEB. Hasta 8K tokens.

mxbai-rerank-large

Open-source, Mixedbread. Calidad sólida en inglés. Apache 2.0 license.

ColBERTv2 / ColBERT-X

Late-interaction retrieval: middle ground entre bi-encoder y cross-encoder. Soportado por Vespa, Qdrant. Más complejo de operar.

LLM-as-reranker

Usar un LLM small (GPT-4o-mini, Claude Haiku) como reranker custom con prompt: "ordena estos N docs por relevancia a esta query". Flexible pero más caro y más lento.

RankZephyr / RankGPT

LLMs específicamente fine-tuneados para ranking. Buenos resultados pero menos usados en producción real.

Cómo se integra

Pipeline retrieve + rerank en RAG

Cinco fases del flujo en producción.

Recuperación inicial

Vector search en <a href="/glosario/que-es-vector-database">vector database</a> (Qdrant, Pinecone, pgvector) o búsqueda híbrida (vector + BM25). Devuelve top-50 o top-100 candidatos. Latencia: 30-200ms.

Llamada al reranker

Se envían (query, doc) para cada uno de los 50-100 candidatos al reranker. API o modelo self-hosted en GPU. Latencia: 100-500ms para 50-100 candidatos.

Reordenación por score

Reranker devuelve score por par (query, doc). Se ordena descendente. Se quedan los top-5 o top-10 mejores. Resto se descarta.

Contexto al LLM

Top-K reordenados se concatenan como contexto al prompt del LLM (Claude, GPT, Gemini). El LLM genera la respuesta citando los docs.

Evaluación periódica

Métricas NDCG@10, MRR, Hit@5 sobre dataset de evaluación. Se mide impacto del reranker vs solo retrieval. Se afina top-K, modelo, prompt según resultados.

20-40%

Mejora típica NDCG@10

100-500ms

Latencia añadida

Top 50-100

Candidatos para rerank

Top 5-10

Salida típica al LLM

Cómo se relaciona con otros conceptos

Reranking en el ecosistema RAG moderno.

El reranking es la segunda mitad del pipeline de recuperación en RAG. Va después de los embeddings y antes de la generación del LLM. Es la pieza más infravalorada del stack — añadirla suele dar mejor ROI que cambiar de modelo de embeddings o de LLM.

Frameworks como LangChain, LlamaIndex y Haystack integran rerankers nativamente: con 3-5 líneas tienes el pipeline retrieve+rerank funcionando. LLMOps debe medir el impacto del reranker en evaluación contra dataset.

Patrón habitual: retrieval híbrido (BM25 + embeddings, fusionado con Reciprocal Rank Fusion) → reranker → top-K al LLM. Esta combinación bate a embeddings solos por amplio margen en cualquier benchmark serio. Suma LLMOps con evaluación reproducible y tienes un RAG enterprise-grade.

En Magnetia añadimos reranking por defecto en cualquier sistema RAG empresarial que diseñamos. Combinable con automatización IA y consultoría. Ver sistema RAG paso a paso y observabilidad LLM.

Preguntas frecuentes

Dudas que nos hacéis llegar

Segunda fase de recuperación donde un modelo más caro (cross-encoder) reordena los top candidatos devueltos por la búsqueda inicial (vector o híbrida), eligiendo los más relevantes a la query del usuario.

45 min, sin compromiso

¿Tu RAG ya tiene reranking?

Si la respuesta es "no" o "no sé", probablemente estás dejando 20-40% de calidad encima de la mesa. Auditamos tu pipeline RAG y planificamos la mejora.

Pedir auditoría RAG Ver consultoría IA para pymes →