Magnetia — Agencia de marketing digital, IA y diseño web
Guía técnica · LLM eval

Evaluar un LLM para tu pyme: lo que sí importa más allá del hype.

MMLU, HumanEval, ARC. Tablas comparativas con cifras del 0,8%. Nada de eso te dice qué modelo va a funcionar en tu caso real. Cómo evaluar un LLM para tu pyme con eval datasets propios, métricas honestas y proceso de selección defendible.

Hablar con un experto

Actualizado mayo 2026

Qué medir y qué no

El benchmark público de moda no te dice si Claude va mejor que GPT en tu caso. Tu eval propio sí.

En 2026 abundan rankings de LLMs (LMArena, Hugging Face Leaderboard, Vellum) y benchmarks (MMLU, HumanEval, MT-Bench, GPQA). Útiles para entender capacidades generales, pero nada de eso predice rendimiento en tu caso específico: atender consultas de tu pyme dental en castellano, extraer datos de tus facturas concretas, escribir propuestas con tu tono.

La evaluación útil para pyme es eval dataset propio: 30-100 casos reales representativos de tu uso, con respuesta esperada (o criterios de calidad). Pruebas cada modelo candidato contra ese dataset, mides precisión + latencia + coste, decides con datos.

Sin eval propio, eliges LLM por intuición o por el último blog post viral. Eso lleva a switching costoso a los 6 meses o a casos donde el modelo "lifestyle" no rinde en tu producción real. Ver elegir modelo IA.

Tres dimensiones

Qué medir al evaluar un LLM en pyme

Calidad / precisión

Sobre tu caso real. Para atender consultas: ratio respuestas correctas. Para extraer datos: precisión campo por campo. Para redactar: evaluación humana con criterios claros (5-7 dimensiones). Sin esto, evalúas a ciegas.

Latencia

Tiempo respuesta para tu caso real (no MMLU). Crítico en chat tiempo real y voz. Latencia P50 y P95. Diferencia entre 800ms y 2.500ms cambia experiencia radicalmente.

Coste por interacción

Tokens input + output por caso típico × precio modelo. No el precio por millón de tokens en abstracto. Coste real mensual proyectado al volumen real. A veces Claude rinde mejor pero 3x más caro mata el caso.

Eval dataset

Cómo construir un eval dataset propio.

1. Recopilar casos reales. 30-100 ejemplos representativos del caso de uso: consultas reales de clientes, facturas reales que procesarías, propuestas reales que escribirías. Diversidad de complejidad: 60% caso normal, 25% caso medio, 15% caso difícil.

2. Definir respuesta esperada o criterios. Para tareas determinísticas (extraer NIF): respuesta exacta. Para tareas generativas (escribir email): rúbrica de evaluación (tono adecuado, completitud, brevedad, sin alucinaciones). Sin criterio claro, evaluación subjetiva no escala.

3. Correr eval contra cada modelo candidato. Mismo prompt, mismo input, diferentes modelos (GPT-4o, Claude 3.5 Sonnet, Gemini Pro, Llama 3.1 70B). Recopilar respuestas. Frameworks útiles: Promptfoo, LangSmith, Helicone.

4. Scoring humano y automático. Tareas determinísticas: scoring automático (exact match, partial match). Tareas generativas: humano evalúa con rúbrica, o LLM-as-judge con prompt cuidado. Ideal: combinar ambos. Ver sistema RAG.

5. Decisión con datos. Tabla por modelo: precisión, latencia P95, coste mensual proyectado, % casos fallidos críticos. Decisión defendible, no por intuición o moda. Reevaluación cada 6-12 meses porque modelos evolucionan.

Proceso eval

Plan para evaluar LLMs en tu pyme

01

Semana 1 · Definir caso y criterios

Caso concreto a evaluar (no genérico). Criterio de éxito medible. Modelos candidatos (3-5 razonables, no 20). Métricas: calidad, latencia, coste.

02

Semana 2 · Construir eval dataset

50-100 casos reales con respuesta esperada o rúbrica. Mezcla complejidad. Validar con persona del negocio que el dataset es representativo.

03

Semana 3 · Ejecutar eval

Promptfoo, LangSmith o script propio. Correr cada caso × cada modelo. Guardar respuestas. Calcular métricas automáticas. Para tareas generativas, scoring humano con rúbrica.

04

Semana 4 · Análisis y decisión

Tabla comparativa por modelo. Identificar trade-offs (mejor calidad vs mejor coste). Decidir modelo principal y modelo de fallback. Documentar razones.

05

Mes 6-12 · Reevaluación

Modelos evolucionan rápido. Reevaluar cada 6-12 meses con eval dataset actualizado. A veces switch a modelo nuevo justifica esfuerzo migración.

Herramientas eval

Stack típico para evaluar LLMs

Promptfoo

Open source. Define eval cases en YAML, corre múltiples modelos, scoring automático y custom. Bueno para empezar y para pipelines CI/CD.

LangSmith

De LangChain. Trace de cada llamada, dataset management, eval con LLM-as-judge. Bueno si ya usas LangChain. Coste razonable.

Helicone

Observability + eval. Bueno para producción donde quieres monitoring continuo y eval por sample del tráfico real.

Vellum / Braintrust

Plataformas comerciales con foco en eval colaborativo y A/B testing de prompts. Útiles si equipo grande gestiona varios casos.

30-100
Casos en eval dataset razonable
3-5
Modelos candidatos a evaluar
6-12 meses
Frecuencia reevaluación
15-40%
Diferencia rendimiento entre modelos en mismo caso
Preguntas frecuentes

Dudas que nos hacéis llegar

Como referencia general de capacidades, sí. Como predictor de tu caso específico, no. Un modelo que gana MMLU puede rendir peor que otro en castellano coloquial o en extracción de datos de tus facturas concretas. Eval propio es lo único defendible.
Evaluación LLM

¿Quieres elegir LLM con datos en vez de por intuición?

Reunión 60 min: vemos tu caso, modelos candidatos y construimos eval dataset. Decisión defendible con números en vez de hype.

Hablemos