¿Qué modelo de embeddings elegir para mi pyme?

Si trabajas en castellano y multilingüe: Cohere Embed v3 o OpenAI text-embedding-3-large . Si presupuesto ajustado o necesitas self-hosted: BGE-M3 o multilingual-e5-large . Si stack GCP: Gemini embedding . Si código: Voyage Code 2 . Regla simple: empezar con OpenAI text-embedding-3-small (default seguro) y migrar si la calidad falla.

¿Cuántas dimensiones tiene un embedding típico?

Depende del modelo. Rangos habituales: 384, 512, 768, 1024, 1536, 3072 . text-embedding-3-small: 1536 (truncable). text-embedding-3-large: 3072. BGE-M3: 1024. Cohere v3: 1024. Más dimensiones = más expresividad pero más coste de almacenamiento y latencia. Matryoshka embeddings permiten truncar.

¿Cómo se mide la similitud entre embeddings?

La métrica estándar es similitud coseno : un número entre -1 y 1. Vectores apuntando "en la misma dirección" tienen coseno cercano a 1. Otras métricas: producto escalar (si están normalizados, equivalente a coseno), distancia euclídea, distancia Manhattan. La mayoría de vector DBs usan coseno por defecto.

¿Embeddings o búsqueda clásica (BM25)?

Las dos. Las búsquedas modernas usan hybrid retrieval : BM25 (palabras clave) + embeddings semánticos + reranker. Cada una captura cosas distintas: BM25 es muy bueno con nombres propios, códigos, términos exactos; embeddings con sinónimos, contexto, intención. Combinarlas mejora recall y precisión.

¿Cuánto cuesta embeber 100.000 documentos?

Suponiendo 1.000 tokens medios por chunk, 100K chunks = 100M tokens. OpenAI text-embedding-3-small : ~2 €. OpenAI text-embedding-3-large : ~13 €. Cohere Embed v3 : ~10 €. Self-hosted BGE-M3 : gratis (pago por hardware/GPU). El coste de embeber es despreciable frente al resto del proyecto.

¿Tengo que volver a generar embeddings si cambio de modelo?

Sí. Embeddings de modelos distintos viven en espacios incompatibles entre sí — no se pueden comparar. Si decides cambiar de text-embedding-3-small a Cohere v3, hay que regenerar todos los embeddings . Plan típico: ejecutar batch nocturno, mantener dos colecciones en paralelo unos días para validar.

¿Self-hosted o API para embeddings?

API (OpenAI, Cohere, Voyage) si: poco volumen, velocidad de implementación, sin recursos de ML ops. Self-hosted (BGE-M3, Jina, multilingual-e5) si: volúmenes muy altos (>10M tokens/día), datos muy sensibles que no pueden salir, control fino sobre versiones. Sentence-transformers + GPU modesta cubre 99% de casos self-hosted.

Glosario · AI Dev

¿Qué son los embeddings vectoriales y por qué son la base de toda la IA semántica moderna?

Representaciones numéricas (vectores) de texto, imágenes o audio que permiten medir similitud semántica. La pieza fundamental de RAG, búsqueda semántica, clasificación y clustering modernos.

Hablar con Magnetia sobre embeddings

Actualizado mayo 2026

Definición

Embeddings: convertir información en coordenadas semánticas.

Un embedding es una representación numérica densa (un vector de cientos o miles de dimensiones) de un fragmento de información — texto, imagen, audio, código. Modelos de IA entrenan estos vectores de forma que el significado queda codificado geométricamente: textos que significan cosas parecidas tienen vectores cercanos en el espacio; textos sin relación quedan lejanos.

La medida de similitud más usada es la similitud coseno (cosine similarity): un número entre -1 y 1 que indica cuán "apuntando en la misma dirección" están dos vectores. Valores cercanos a 1 indican alta similitud semántica. Frente a búsqueda textual clásica (BM25, palabras clave) los embeddings capturan sinónimos, contexto, intención.

Son la pieza fundamental de muchos sistemas de IA modernos: (1) RAG (recupera chunks relevantes para responder), (2) búsqueda semántica en producto (mejor que keyword), (3) clasificación zero-shot, (4) clustering automático, (5) recomendadores, (6) detección de duplicados o casi-duplicados.

Los modelos de embeddings más usados en 2026: OpenAI text-embedding-3-large/small, Cohere Embed v3, Voyage AI voyage-3, BGE-M3 (open-source, BAAI), Jina Embeddings v3 (open-source), multilingual-e5-large (Microsoft, open). Cada uno con su propia dimensionalidad, idiomas soportados y latencia/coste. Se almacenan en vector databases para búsqueda rápida (Qdrant, Pinecone, Weaviate, pgvector).

Conceptos clave

Lo que conviene entender sobre embeddings

Para no quedarse con la caja negra.

Dimensionalidad

Número de componentes del vector. 384, 512, 768, 1024, 1536, 3072 son habituales. Más dimensiones = más capacidad de capturar matices, pero más coste de almacenamiento y búsqueda. Matryoshka embeddings permiten truncar a menor dim manteniendo calidad.

Similitud coseno

Métrica estándar: producto escalar de los dos vectores normalizados. Resultado entre -1 y 1. Valores típicos: >0.85 mismos significados; 0.7-0.85 relacionados; <0.5 poco relacionados. Más rápida que distancia euclídea.

Chunking

Texto largo se divide en chunks (fragmentos) antes de embeber: el modelo tiene límite de tokens y la granularidad afecta resultado. Estrategias: fixed-size, recursive, semantic, document-aware. Crítico para calidad RAG.

Modelos multilingües

Algunos modelos están entrenados en múltiples idiomas (es, en, fr, de, pt, it, etc.) y permiten consultar en un idioma documentos en otro. Modelos top: Cohere multilingual, BGE-M3, multilingual-e5, Voyage multilingual.

Embeddings especializados

Embeddings específicos para código (Voyage Code, OpenAI text-embedding-3 con prompt), legal, biomédico, financiero. Mejor performance que modelos generales en esos dominios.

Multimodales

Modelos que embeben texto e imagen al mismo espacio (CLIP, SigLIP, ImageBind). Permite buscar imágenes con texto o viceversa. Crítico para producto, e-commerce, biblioteca de medios.

Modelos 2026

Comparativa de embeddings más usados

Resumen de los modelos principales.

OpenAI text-embedding-3-small

1536 dim (truncable a 512). 0.02 €/1M tokens. Rápido, multilingüe razonable. Default seguro para arrancar.

OpenAI text-embedding-3-large

3072 dim. 0.13 €/1M tokens. Más calidad que 3-small. Para casos donde el detalle semántico importa.

Cohere Embed v3

Multilingüe muy fuerte (100+ idiomas). Modos query/document optimizados. Suele ganar a OpenAI en español. ~0.10 €/1M tokens.

Voyage AI voyage-3

Top en benchmarks (MTEB). Modelo voyage-code-2 destaca en código. Soporta 32K tokens contexto. Premium pricing.

BGE-M3 (open-source)

BAAI, gratis self-hosted. Soporta dense, sparse y multi-vector. Hasta 8K tokens. Top open-source 2026.

Jina Embeddings v3

Open-source, 1024 dim, multilingüe. Modos task-specific. Excelente balance calidad/coste self-hosted.

multilingual-e5-large

Microsoft. Open-source. 1024 dim. Soporta 100+ idiomas. Estándar académico/empresarial open.

Gemini embedding

Google. Integrado en Vertex AI. Soporta task types (RETRIEVAL_QUERY, RETRIEVAL_DOCUMENT, CODE_RETRIEVAL_QUERY). Buena opción si stack ya en GCP.

Cómo usarlos

Pipeline típico de embeddings en RAG

Cinco fases. Lo que pasa por debajo.

Chunking de documentos

Cada documento se divide en chunks coherentes (500-1500 tokens habitualmente). Estrategia depende del tipo: recursive char splitter para docs, semantic chunking para narrativas, por secciones para markdown.

Embedding de chunks

Cada chunk se pasa por el modelo de embeddings → vector. Suele hacerse en batch (100-1000 chunks por llamada). Coste lineal con tokens. Guardar también texto original + metadatos.

Almacenamiento en vector DB

Vectores + metadatos se cargan en <a href="/glosario/que-es-vector-database">vector database</a>: Qdrant, Pinecone, Weaviate, pgvector, Milvus, Chroma. Índice ANN (HNSW, IVF) para búsqueda rápida.

Embedding de la query

En tiempo de consulta, el texto del usuario se embebe con el MISMO modelo. Búsqueda kNN devuelve top-K chunks más similares por coseno. Latencia típica: 50-300ms.

Reranking opcional

Los top-K se pueden pasar por un <a href="/glosario/que-es-reranking">reranker</a> (cross-encoder más caro pero más preciso) que reordena la lista por relevancia real a la query. Mejora notable de calidad.

1536

Dim típica OpenAI v3-small

0.02€

Coste 1M tokens text-embedding-3-small

BGE-M3

Líder open-source 2026

Cosine

Métrica de similitud estándar

Cómo se relaciona con otros conceptos

Embeddings en el ecosistema de IA empresarial.

Los embeddings son la pieza que conecta LLMs con datos privados. Sin embeddings, los sistemas RAG no existen. Los almacena una vector database y los consume el LLM tras recuperación y opcional reranking.

Frente a fine-tuning, embeddings + RAG son la primera opción para casi cualquier caso empresarial: más barato, más actualizable y sin riesgo de "olvidar" el modelo. Fine-tuning solo cuando quieres modificar estilo, formato o comportamiento intrínseco.

Los frameworks LangChain y LlamaIndex abstraen la generación y consulta de embeddings con interfaces unificadas a docenas de proveedores. LLMOps incluye evaluación periódica de calidad de embeddings (retrieval metrics: recall@k, NDCG, MRR) para detectar drift.

En Magnetia diseñamos pipelines de embeddings + RAG end-to-end: chunking adecuado, elección de modelo (cloud vs self-hosted, español vs multilingüe), reranking, evaluación. Combinable con automatización IA. Ver sistema RAG paso a paso.

Preguntas frecuentes

Dudas que nos hacéis llegar

Representaciones numéricas (vectores de cientos o miles de dimensiones) de texto, imagen o audio, donde objetos semánticamente parecidos quedan cerca en el espacio vectorial. Permiten buscar por significado, no por palabras exactas.

45 min, sin compromiso

¿Quieres montar búsqueda semántica o RAG y no sabes qué embeddings elegir?

Diseñamos pipeline completo de embeddings + vector DB + reranking + evaluación adecuado a tu caso. Sin sobre-ingeniería ni vendor lock-in innecesario.

Pedir diagnóstico Ver consultoría IA para pymes →