GDPR + LLMs: cómo configurar Anthropic, OpenAI y Azure sin filtrar datos.
Usar la API estándar de OpenAI o Anthropic con datos personales sin configurar nada extra no cumple RGPD. Aquí están los endpoints enterprise correctos, la configuración de zero data retention, los DPAs que tienes que firmar y las alternativas open source en VPS europeo.
Actualizado mayo 2026
Los LLM populares no son GDPR-compliant por defecto.
Cuando llamas a la API de OpenAI estándar con datos de tus clientes, esos datos viajan a servidores en EE.UU., se procesan allí y, hasta 2024, se conservaban 30 días para abuso/seguridad y podían entrenarse modelos sobre ellos. La transferencia a EE.UU. tras la sentencia Schrems II y bajo el actual marco UE-EE.UU. Data Privacy Framework es legal, pero requiere salvaguardas adicionales y, sobre todo, requiere DPA firmado y configuración correcta del lado del cliente.
En 2026 los proveedores serios (Anthropic, OpenAI, Azure, AWS, Google) han creado endpoints "enterprise" o "API for business" que sí cumplen RGPD con sus opciones por defecto: zero data retention (no guardan tus prompts), no entrenamiento con tus datos, DPA estándar y, en algunos casos, residencia europea opcional. La diferencia entre el endpoint estándar y el enterprise son normalmente unos clics en consola y una firma DPA, no un cambio de precio.
Por debajo está la opción open source self-hosted: Llama 3.1, Mistral, Qwen o Gemma corriendo en un VPS europeo. Los datos no salen nunca de tu infraestructura. Es la respuesta más fuerte para sectores regulados (sanidad, jurídico, banca) pero exige inversión inicial y conocimiento.
Cómo dejar cada LLM GDPR-compliant
Lo que tienes que activar en consola, mes 1 de implantación.
Anthropic (Claude)
API estándar: firmar DPA en console.anthropic.com → Settings → Privacy. Zero data retention disponible bajo solicitud para clientes con uso comercial (no entrenan con datos API por defecto). Residencia: AWS US predominantemente; para residencia europea garantizada usar Claude vía AWS Bedrock región eu-central-1 o eu-west-1.
OpenAI (GPT)
API estándar: en platform.openai.com → Settings → Data Controls activar "Do not train on my data" (por defecto en API empresarial) y firmar DPA. Retención por defecto 30 días para abuso; pedir <strong>zero data retention</strong> via formulario "ZDR request" si manejas datos sensibles. Para residencia UE garantizada, usar Azure OpenAI.
Azure OpenAI
La respuesta más sencilla para residencia UE. Eliges región europea (West Europe, North Europe, France Central, Sweden Central) al crear el recurso. Zero data retention configurable desde portal Azure. DPA cubierto por Microsoft Enterprise Agreement existente si ya usas Azure. Mismos modelos GPT-4, GPT-4o, GPT-4.1 que OpenAI.
AWS Bedrock
Permite usar Claude (Anthropic), Llama, Mistral, Cohere y modelos AWS desde una sola API en región europea. Datos no salen de la región. Zero data retention por defecto en Bedrock (los modelos son stateless, no entrenan con tus inputs). DPA y BAA disponibles. Recomendado para entornos que ya viven en AWS.
Lo que sí guarda el proveedor y lo que no.
Zero data retention (ZDR) significa que el proveedor no almacena ni el prompt que mandas ni la respuesta generada más allá del tiempo estricto de procesar la petición. No quedan logs persistentes con el contenido, no se usan para entrenar, no se revisan manualmente. La petición entra, se procesa, se devuelve la respuesta y se descarta.
Lo que sí queda casi siempre son metadatos operacionales: timestamp de la petición, identificador del cliente API, modelo usado, número de tokens consumidos. Eso es necesario para facturación y para detectar abuso. Pero NO el contenido del prompt ni de la respuesta.
Sin ZDR el comportamiento por defecto suele ser: retener 30 días el contenido para "abuse monitoring" (detectar intentos de bypass, contenido ilegal, etc.). Esos 30 días tu prompt vive en infraestructura del proveedor. Para datos no sensibles eso suele ser aceptable. Para datos sanitarios, financieros, secretos comerciales o cualquier cosa cubierta por contrato de confidencialidad cliente, NO lo es.
Activar ZDR es gratuito en todos los proveedores serios. Solo hay que pedirlo: formulario en OpenAI ("Zero Data Retention Request"), check en consola Anthropic ("Privacy mode"), configuración en Azure OpenAI ("Abuse monitoring opt-out"), por defecto en Bedrock.
Lo que tu pyme debe tener firmado y configurado antes de meter datos reales
DPA (Data Processing Agreement) firmado
Con cada proveedor IA al que mandes datos personales. Es un anexo al contrato comercial que define al proveedor como "encargado del tratamiento" bajo art. 28 RGPD. Disponible en pocos clics en consola: Anthropic, OpenAI, Microsoft, AWS, Google.
Zero data retention activado
Para datos sensibles (sanitarios, jurídicos, financieros, biométricos). Para datos personales básicos también es buena práctica aunque no obligatorio. Confirmación por escrito o captura de la configuración guardada en tu carpeta de cumplimiento.
Residencia de datos documentada
Saber dónde se procesan tus datos: EE.UU., UE, multi-región. Si es fuera de UE, salvaguarda válida en marcha (Data Privacy Framework UE-EE.UU., Standard Contractual Clauses). Anotado en tu registro de actividades de tratamiento.
Cláusula de subprocesadores cubierta
OpenAI usa Microsoft Azure por debajo. Anthropic usa AWS. Eso significa subprocesadores. El DPA debe contemplarlos y notificar cambios. Hay que confirmar que los subprocesadores también cumplen RGPD (sí lo hacen, pero documentarlo).
Información al usuario actualizada
Si tu pyme usa un LLM para procesar datos de clientes, en política de privacidad y en avisos al cliente debe aparecer mención al uso de IA generativa y al subencargado. Es transparencia básica RGPD.
Anonimización o minimización en el prompt
Mejor práctica técnica: no mandar al LLM más datos que los estrictamente necesarios. Si vas a clasificar reseñas, manda el texto sin email del cliente. Si vas a resumir un caso, anonimiza nombres. Cuanto menos PII viaja, menos exposición.
LLM open source en VPS europeo.
Si trabajas con datos sensibles donde "mandar a un tercero" no es aceptable (sanidad, defensa, asesoría jurídica, banca interna), la respuesta es modelos open source self-hosted. Los datos no salen de tu infraestructura, controlas todo el ciclo, y la latencia puede ser incluso menor que la API.
Llama 3.1 70B (Meta) y Mistral Large 2 (Mistral, Francia) son los más usados en empresa europea. Calidad cercana a GPT-4 para la mayoría de tareas empresariales (clasificación, extracción, resumen, RAG). Requieren GPU dedicada: una NVIDIA L40S o A100 cubre uso medio de pyme, con coste 800-1.500 €/mes en Hetzner GPU Cloud o OVHcloud.
Para usos más ligeros (chatbots simples, clasificación) Llama 3.1 8B o Mistral 7B corren cómodamente en CPU o GPU pequeña: VPS de 50-100 €/mes vale. Calidad similar a GPT-3.5 para tareas estructuradas. Es lo que recomendamos a pymes que quieren tocar IA propia sin gastar miles al mes.
El stack técnico habitual: vLLM o Ollama como servidor de inferencia, Open WebUI como frontend tipo ChatGPT, integración con RAG contra tus documentos vía LlamaIndex o LangChain. Montaje inicial: 3-5 días de un perfil técnico. Mantenimiento posterior: 2-4h/mes.
Qué configuración encaja con tu pyme.
Pyme con datos no sensibles (marketing, ventas, ops)
API estándar (OpenAI o Anthropic) con DPA firmado y zero data retention activado. Sin necesidad de residencia europea estricta. Coste y velocidad ganan. Cubre 70% de casos de pyme española.
Pyme con datos personales sensibles ocasionales
Azure OpenAI o AWS Bedrock en región europea (West Europe, eu-central-1). Garantía de residencia, mismas APIs y modelos, integración más sencilla con Active Directory si ya usas Microsoft.
Pyme en sector regulado (sanidad, jurídico, banca)
Open source self-hosted en VPS europeo (Llama 3.1 o Mistral). Inversión inicial 5.000-12.000 € (montaje + GPU primer año) pero datos nunca salen de tu infraestructura. Acompáñalo con RAG sobre tus documentos.
Pyme con uso mixto (algunos flujos sensibles, otros no)
Híbrido: API estándar para tareas generales + LLM self-hosted para flujos sensibles. Tu orquestador (n8n, Make) decide a qué motor manda según etiqueta del dato. Es lo más eficiente en coste y cumplimiento.
Dudas que nos hacéis llegar
¿Quieres dejar tu stack LLM blindado en RGPD?
Auditoría en 3 horas: revisamos qué LLM usas hoy, cómo está configurado, qué DPAs faltan y dónde hay agujero. Te entregamos checklist firmable y, si lo necesitas, montamos endpoint Azure OpenAI o Bedrock o despliegue open source en tu VPS. Compatible con auditoría AI Act.