MLOps lite: IA productiva sin sobre-ingeniería.
Pipeline, versionado, deployment, monitoring de modelos y LLMs en pyme. Stack realista que cabe en un equipo de 2-5 personas. Sin Kubernetes innecesario, sin teatro DevOps.
Actualizado mayo 2026
MLOps no es opcional: es lo que separa POC de producción.
MLOps es el conjunto de prácticas para llevar modelos IA a producción de forma sostenible: versionado, despliegue, monitoring, retraining. En empresas grandes son equipos enteros con Kubeflow, MLflow, SageMaker, Vertex AI. En pyme, esa infraestructura es caro y excesivo. Pero saltarse MLOps por completo lleva al cementerio de POCs.
El concepto MLOps lite es: aplicar los principios (reproducibilidad, observabilidad, deploy controlado) con stack proporcional. Para 90% de pymes IA, esto significa: GitHub para código y prompts, MLflow self-hosted o cloud para experimentos, Docker simple, FastAPI o serverless, monitoring con LangSmith/Langfuse/Helicone, retraining manual programado. Cabe en un equipo de 2-5 personas.
En Magnetia hemos visto dos extremos malos: pyme que monta Kubernetes con Kubeflow para servir un clasificador de 10K llamadas/mes (overkill brutal), y pyme que pone modelo IA en producción con Flask en servidor único sin versionado, sin logs, sin monitoring (cuando falla, no saben ni qué versión está corriendo). El punto medio es MLOps lite bien hecho. Ver también observabilidad LLM pyme.
Lo que de verdad rinde en pyme
Reproducibilidad
Código, datos y configuración versionados. Cualquier modelo en producción puede reproducirse: commit Git + versión datos + parámetros. Sin esto, debugging imposible y mejoras frágiles.
Deployment controlado
Modelo nuevo no entra a producción directo. Pasa por staging, evaluación, A/B test si crítico, despliegue gradual. Rollback posible en minutos. Sin esto, cada cambio es ruleta rusa.
Observabilidad continua
Logs estructurados, métricas calidad, latencia, coste, errores. Alertas si métrica fuera rango. Sin esto, sistema funciona hasta que no, sin avisar.
Herramientas concretas que cabe en pyme.
1. Versionado código y prompts. Git/GitHub estándar. Prompts en repositorio separado o subcarpeta, versionados como código. CI/CD básico con GitHub Actions o GitLab CI. Sin esto, prompts perdidos y cambios sin trazabilidad.
2. Versionado datos y modelos. DVC (Data Version Control) sobre Git para datasets. MLflow self-hosted (Docker compose) o cloud para experimentos y modelos. Alternativas: Weights & Biases, Neptune. Para pyme con poco volumen, MLflow basta.
3. Deployment para LLMs. Si usas APIs (OpenAI, Anthropic, Google): nada que desplegar, solo versionar prompts y código orquestación. Si self-hosted: vLLM, TGI, Ollama. Docker básico + FastAPI o serverless (Vercel, Fly.io, Modal) suelen bastar. Kubernetes solo si tráfico justificado.
4. Observabilidad LLMs. LangSmith, Langfuse (open source self-hosted), Helicone. Logging por request, evaluación continua, dashboards. Para 10-100K llamadas/mes, plan barato (50-200€/mes) o self-hosted free. Ver observabilidad LLM pyme.
5. Retraining y evaluación. Set evaluación versionado en Git. Evaluación automática cada semana sobre muestreo aleatorio producción. Re-training/re-prompting cuando métricas degradan. Para fine-tuning: pipeline semi-automatizado mensual o trimestral.
Cómo montar MLOps lite en pyme
Semana 1-2 · Inventario y baseline
Inventario sistemas IA actuales: qué modelos, dónde corren, cómo se versionan, qué logs hay. Identificar gaps críticos. Sin baseline no priorizas bien.
Semana 3-4 · Repositorio y versionado
Repo Git para todo: código, prompts, configuración. Estructura clara. CI/CD básico. Tests automatizados de prompts críticos. Plan branching definido.
Semana 5-6 · Deployment controlado
Pipeline staging → producción con paso de evaluación obligatorio. Rollback documentado y probado. Para LLMs: deploy es prompt + código orquestación nuevo, no infra.
Semana 7-8 · Observabilidad
LangSmith, Langfuse o equivalente conectado. Logging estructurado por request. Dashboards: latencia, errores, coste, calidad muestreada. Alertas básicas.
Semana 9-12 · Evaluación continua y retraining
Set evaluación versionado, ejecución semanal automática. Métricas guardadas histórico. Procedimiento retraining/re-prompting cuando métricas caen. Documentación operativa.
Lo que vemos mal en MLOps pyme
Sobre-ingeniería con Kubernetes
Pyme con 5K llamadas/mes monta cluster Kubernetes con Kubeflow y Istio. Coste mensual 800€+ infra + 2 ingenieros mantenimiento. Para ese volumen, serverless (Vercel, Fly.io, Modal) cuesta 50€/mes y mantiene 1 persona dedicada parcial.
Sub-ingeniería sin versionado
Modelo en producción servido por Flask. Prompts hardcodeados en código. Sin logs estructurados. Cuando algo falla, debugging imposible. Versionado mínimo desde día 1 evita drama mes 4.
Sin set de evaluación
Sistema en producción sin set test versionado. Cuando cambias prompt o modelo, no sabes si mejoras o empeoras. 30-50 casos test versionados es trabajo mínimo de un día y duplica capacidad mejora.
Cero monitoring
Sistema funciona hasta que un día las respuestas se vuelven malas y no te enteras. Cliente reclama. Métricas básicas (latencia, errores, muestreo calidad) son trabajo de una semana y ahorran meses de problemas.
Dudas que nos hacéis llegar
¿Tienes IA en producción sin versionado ni monitoring?
Auditoría MLOps actual + plan implementación lite proporcional + soporte. Sin overkill ni atajos peligrosos.