LLMs open source en pyme: cuándo Llama o Mistral, cuándo no.
Llama 3.3, Mistral, Qwen 2.5, DeepSeek V3 ya juegan en una liga cercana a los modelos cerrados en muchas tareas. Cuándo conviene a una pyme española optar por open source, y cuándo es ahorrar al principio para gastar más al final.
Actualizado mayo 2026
El panorama open source 2026 no se parece al de 2023.
En 2023, los modelos open source iban dos generaciones por detrás de GPT-4. En 2026, los mejores open source (Llama 3.3 70B, Qwen 2.5 72B, DeepSeek V3, Mistral Large) rinden cerca o por encima de GPT-4o en muchas tareas: razonamiento general, código, multilingue. Para tareas críticas Claude y GPT-5 siguen delante, pero el delta se ha reducido.
Llama 3.3 (Meta) lidera la familia más usada: 8B, 70B, 405B. Mistral tiene catálogo amplio (Mistral Small, Large, Codestral). Qwen 2.5 (Alibaba) destaca en multilingue y código. DeepSeek V3 rompió esquemas en coste/rendimiento. Phi-3/4 (Microsoft) y Gemma 2 (Google) son los pequeños eficientes.
Para pyme, la pregunta no es "el mejor del benchmark" sino "qué cubre mi caso con coste y mantenimiento sano". La respuesta a veces es open source, otras veces sigue siendo API cerrada. Ver elegir modelo IA y qué es LLM.
Tres razones legítimas para self-hosting
Más allá del entusiasmo técnico.
Privacidad regulada extrema
Sanidad, defensa, legal con datos altamente sensibles que no pueden salir de tu infra. Aun con DPA y región UE de OpenAI/Anthropic, hay sectores donde la única respuesta válida es self-hosted on-prem.
Volumen y coste a escala
Si procesas millones de tokens/día con tareas estables (clasificación, extracción, embeddings), self-hosted o API open-source (Together AI, Groq) sale 5-20x más barato que GPT-4o o Claude Sonnet. Sweet spot: volumen alto repetitivo.
Fine-tuning controlado
Si necesitas fine-tuning específico (estilo, dominio, formato) y quieres total control sobre el modelo resultante: open source. APIs cerradas permiten fine-tuning pero menos profundo. Ver fine-tuning vs RAG.
Cuánto cuesta de verdad usar LLMs open source en pyme.
1. Self-hosted on-premise GPU. Llama 3.3 70B requiere mínimo 2x A100 80GB o 2x H100 (~30.000 €/año en cloud GPU dedicado, ~40-60k€ comprar y operar). Para volumen alto compensa. Para volumen pyme estándar (1.000-10.000 inferencias/día), tirar el dinero comparado con API.
2. API open-source gestionada. Together AI, Groq, Fireworks, Anyscale ofrecen Llama, Mistral, Qwen como API. Coste 5-10x más barato que GPT-4o, sin mantener GPU. Sweet spot pyme: volumen medio, casos donde no necesitas modelo en tu red.
3. API cloud propietaria (OpenAI, Anthropic). Sin mantenimiento, mejor rendimiento en tareas exigentes, garantías SLA. Coste mayor pero predecible. Para pyme con volumen bajo-medio y casos críticos: sigue siendo la opción rentable. Volumen pyme típico (1.000-10.000 consultas/mes): 50-400 €/mes en API. Es ridículo comparado con montar GPU propia.
4. Coste oculto self-hosting: ingeniería operativa. Mantener inferencia LLM en GPU requiere expertise: vLLM o TGI configurados, batching, prompt caching, monitorización GPU, manejo OOM, actualización modelos. Mínimo 8-20 horas/mes de DevOps senior. Si no lo tienes, es coste oculto que termina en sistema caído.
5. Coste oculto API: dependencia. Si un proveedor cambia precios o discontinúa modelo, tu app se rompe. Mitigarlo: framework agnóstico (Vercel AI SDK), capacidad de cambiar provider, evaluación continua. Ver Vercel AI SDK vs Langchain.
Cómo decidir open source o API cerrada
Paso 1 · Volumen real estimado
Tokens/mes estimados con margen. Sin volumen alto sostenido, self-hosting es romántico pero antieconómico. API funciona perfectamente hasta varios millones de tokens/mes.
Paso 2 · Sensibilidad de los datos
Datos personales o sensibles que no pueden salir: Azure OpenAI con DPA + región UE basta para 95% de casos. Sectores con prohibición total: self-hosted. Documentar siempre. Ver <a href="/blog/rgpd-pyme-2026-practico" class="text-magnetia-red underline">RGPD pyme</a>.
Paso 3 · Tarea: estable y repetitiva o variada
Tareas estables (clasificar tickets, extraer campos, embeddings): modelo pequeño open source self-hosted o vía Together AI rinde excelente y baratísimo. Tareas variadas y complejas: API cerrada gana en flexibilidad y calidad.
Paso 4 · Capacidad de ingeniería interna
Self-hosting requiere DevOps senior con experiencia en GPU e inferencia. Sin esto, API gestionada (Together, Groq, Anthropic, OpenAI) es el camino. No infravalores este coste: vemos pymes encalladas 6 meses montando inferencia.
Paso 5 · Híbrido casi siempre gana
Patrón pyme realista 2026: API cerrada (Claude/GPT) para tareas críticas + modelo open source (vía Together o self-hosted) para batch alto volumen + embeddings open source. Lo mejor de ambos mundos, coste controlado.
Lo que vemos mal en proyectos open source pyme
Self-hosting Llama 70B sin DevOps
Pyme monta Llama 70B en una RTX 4090 doméstica para "ahorrar". Inferencia lenta, sin batching, sin monitorización, cae cada 3 días. Coste real: 3x la API que querían evitar + dolor.
Open source en tareas top-tier
Usar Llama 8B para razonamiento jurídico complejo porque "es open". Calidad mediocre, sistema falla. Para casos exigentes, Claude o GPT siguen valiendo más por euro pese a coste API mayor.
Sin evaluación comparativa
Cambiar de GPT-4o a Llama sin set de evaluación. "Parece que va igual" no es métrica. Mínimo 30-50 casos oro, comparar antes/después. Ver qué es evaluación LLM.
Olvidar embeddings open source
Pagar OpenAI text-embedding-3 cuando BGE-m3 o multilingual-e5 open source rinden similar en castellano y se ejecutan en CPU baratos. Para volumen alto de embeddings, open source es claro ganador.
Checklist mínima
Volumen real y ventana de coste
Tokens/mes estimados. Cálculo coste con 3 proveedores: API cerrada, API open source (Together/Groq), self-hosted (cloud GPU dedicado). Sin este número no se decide nada.
Set de evaluación independiente del modelo
30-100 casos oro con criterios claros, ejecutable contra cualquier modelo. Sin esto, cambiar de modelo es a ciegas.
Framework agnóstico
Vercel AI SDK, Langchain, LlamaIndex permiten cambiar provider con poco código. Atarse a SDK propietario de OpenAI o Anthropic limita.
Plan de rollback
Si el modelo elegido sube precio, discontinua o falla en tu evaluación, qué pasa. Sin alternativa lista, dependes del proveedor.
Privacidad documentada
Qué datos pasan al modelo, dónde se procesan, con qué base legal. Para datos sensibles, masking previo o modelo on-prem. Ver <a href="/blog/rgpd-pyme-2026-practico" class="text-magnetia-red underline">RGPD pyme</a>.
Dudas que nos hacéis llegar
¿Estás valorando open source y dudas si es para ti?
Diagnóstico de volumen, casos, capacidad operativa. Te decimos si toca self-hosting, API open source o seguir con cerrada. Sin agenda ni hype.