Evaluar un LLM para tu pyme: lo que sí importa más allá del hype.
MMLU, HumanEval, ARC. Tablas comparativas con cifras del 0,8%. Nada de eso te dice qué modelo va a funcionar en tu caso real. Cómo evaluar un LLM para tu pyme con eval datasets propios, métricas honestas y proceso de selección defendible.
Actualizado mayo 2026
El benchmark público de moda no te dice si Claude va mejor que GPT en tu caso. Tu eval propio sí.
En 2026 abundan rankings de LLMs (LMArena, Hugging Face Leaderboard, Vellum) y benchmarks (MMLU, HumanEval, MT-Bench, GPQA). Útiles para entender capacidades generales, pero nada de eso predice rendimiento en tu caso específico: atender consultas de tu pyme dental en castellano, extraer datos de tus facturas concretas, escribir propuestas con tu tono.
La evaluación útil para pyme es eval dataset propio: 30-100 casos reales representativos de tu uso, con respuesta esperada (o criterios de calidad). Pruebas cada modelo candidato contra ese dataset, mides precisión + latencia + coste, decides con datos.
Sin eval propio, eliges LLM por intuición o por el último blog post viral. Eso lleva a switching costoso a los 6 meses o a casos donde el modelo "lifestyle" no rinde en tu producción real. Ver elegir modelo IA.
Qué medir al evaluar un LLM en pyme
Calidad / precisión
Sobre tu caso real. Para atender consultas: ratio respuestas correctas. Para extraer datos: precisión campo por campo. Para redactar: evaluación humana con criterios claros (5-7 dimensiones). Sin esto, evalúas a ciegas.
Latencia
Tiempo respuesta para tu caso real (no MMLU). Crítico en chat tiempo real y voz. Latencia P50 y P95. Diferencia entre 800ms y 2.500ms cambia experiencia radicalmente.
Coste por interacción
Tokens input + output por caso típico × precio modelo. No el precio por millón de tokens en abstracto. Coste real mensual proyectado al volumen real. A veces Claude rinde mejor pero 3x más caro mata el caso.
Cómo construir un eval dataset propio.
1. Recopilar casos reales. 30-100 ejemplos representativos del caso de uso: consultas reales de clientes, facturas reales que procesarías, propuestas reales que escribirías. Diversidad de complejidad: 60% caso normal, 25% caso medio, 15% caso difícil.
2. Definir respuesta esperada o criterios. Para tareas determinísticas (extraer NIF): respuesta exacta. Para tareas generativas (escribir email): rúbrica de evaluación (tono adecuado, completitud, brevedad, sin alucinaciones). Sin criterio claro, evaluación subjetiva no escala.
3. Correr eval contra cada modelo candidato. Mismo prompt, mismo input, diferentes modelos (GPT-4o, Claude 3.5 Sonnet, Gemini Pro, Llama 3.1 70B). Recopilar respuestas. Frameworks útiles: Promptfoo, LangSmith, Helicone.
4. Scoring humano y automático. Tareas determinísticas: scoring automático (exact match, partial match). Tareas generativas: humano evalúa con rúbrica, o LLM-as-judge con prompt cuidado. Ideal: combinar ambos. Ver sistema RAG.
5. Decisión con datos. Tabla por modelo: precisión, latencia P95, coste mensual proyectado, % casos fallidos críticos. Decisión defendible, no por intuición o moda. Reevaluación cada 6-12 meses porque modelos evolucionan.
Plan para evaluar LLMs en tu pyme
Semana 1 · Definir caso y criterios
Caso concreto a evaluar (no genérico). Criterio de éxito medible. Modelos candidatos (3-5 razonables, no 20). Métricas: calidad, latencia, coste.
Semana 2 · Construir eval dataset
50-100 casos reales con respuesta esperada o rúbrica. Mezcla complejidad. Validar con persona del negocio que el dataset es representativo.
Semana 3 · Ejecutar eval
Promptfoo, LangSmith o script propio. Correr cada caso × cada modelo. Guardar respuestas. Calcular métricas automáticas. Para tareas generativas, scoring humano con rúbrica.
Semana 4 · Análisis y decisión
Tabla comparativa por modelo. Identificar trade-offs (mejor calidad vs mejor coste). Decidir modelo principal y modelo de fallback. Documentar razones.
Mes 6-12 · Reevaluación
Modelos evolucionan rápido. Reevaluar cada 6-12 meses con eval dataset actualizado. A veces switch a modelo nuevo justifica esfuerzo migración.
Stack típico para evaluar LLMs
Promptfoo
Open source. Define eval cases en YAML, corre múltiples modelos, scoring automático y custom. Bueno para empezar y para pipelines CI/CD.
LangSmith
De LangChain. Trace de cada llamada, dataset management, eval con LLM-as-judge. Bueno si ya usas LangChain. Coste razonable.
Helicone
Observability + eval. Bueno para producción donde quieres monitoring continuo y eval por sample del tráfico real.
Vellum / Braintrust
Plataformas comerciales con foco en eval colaborativo y A/B testing de prompts. Útiles si equipo grande gestiona varios casos.
Dudas que nos hacéis llegar
¿Quieres elegir LLM con datos en vez de por intuición?
Reunión 60 min: vemos tu caso, modelos candidatos y construimos eval dataset. Decisión defendible con números en vez de hype.