Magnetia - Agencia Digital de Generación de Clientes B2B
Legal y compliance · LLMs

GDPR + LLMs: cómo configurar Anthropic, OpenAI y Azure sin filtrar datos.

Usar la API estándar de OpenAI o Anthropic con datos personales sin configurar nada extra no cumple RGPD. Aquí están los endpoints enterprise correctos, la configuración de zero data retention, los DPAs que tienes que firmar y las alternativas open source en VPS europeo.

Auditoría LLM + RGPD

Actualizado mayo 2026

El problema base

Los LLM populares no son GDPR-compliant por defecto.

Cuando llamas a la API de OpenAI estándar con datos de tus clientes, esos datos viajan a servidores en EE.UU., se procesan allí y, hasta 2024, se conservaban 30 días para abuso/seguridad y podían entrenarse modelos sobre ellos. La transferencia a EE.UU. tras la sentencia Schrems II y bajo el actual marco UE-EE.UU. Data Privacy Framework es legal, pero requiere salvaguardas adicionales y, sobre todo, requiere DPA firmado y configuración correcta del lado del cliente.

En 2026 los proveedores serios (Anthropic, OpenAI, Azure, AWS, Google) han creado endpoints "enterprise" o "API for business" que sí cumplen RGPD con sus opciones por defecto: zero data retention (no guardan tus prompts), no entrenamiento con tus datos, DPA estándar y, en algunos casos, residencia europea opcional. La diferencia entre el endpoint estándar y el enterprise son normalmente unos clics en consola y una firma DPA, no un cambio de precio.

Por debajo está la opción open source self-hosted: Llama 3.1, Mistral, Qwen o Gemma corriendo en un VPS europeo. Los datos no salen nunca de tu infraestructura. Es la respuesta más fuerte para sectores regulados (sanidad, jurídico, banca) pero exige inversión inicial y conocimiento.

Configuración por proveedor

Cómo dejar cada LLM GDPR-compliant

Lo que tienes que activar en consola, mes 1 de implantación.

Anthropic (Claude)

API estándar: firmar DPA en console.anthropic.com → Settings → Privacy. Zero data retention disponible bajo solicitud para clientes con uso comercial (no entrenan con datos API por defecto). Residencia: AWS US predominantemente; para residencia europea garantizada usar Claude vía AWS Bedrock región eu-central-1 o eu-west-1.

OpenAI (GPT)

API estándar: en platform.openai.com → Settings → Data Controls activar "Do not train on my data" (por defecto en API empresarial) y firmar DPA. Retención por defecto 30 días para abuso; pedir <strong>zero data retention</strong> via formulario "ZDR request" si manejas datos sensibles. Para residencia UE garantizada, usar Azure OpenAI.

Azure OpenAI

La respuesta más sencilla para residencia UE. Eliges región europea (West Europe, North Europe, France Central, Sweden Central) al crear el recurso. Zero data retention configurable desde portal Azure. DPA cubierto por Microsoft Enterprise Agreement existente si ya usas Azure. Mismos modelos GPT-4, GPT-4o, GPT-4.1 que OpenAI.

AWS Bedrock

Permite usar Claude (Anthropic), Llama, Mistral, Cohere y modelos AWS desde una sola API en región europea. Datos no salen de la región. Zero data retention por defecto en Bedrock (los modelos son stateless, no entrenan con tus inputs). DPA y BAA disponibles. Recomendado para entornos que ya viven en AWS.

Qué es exactamente "zero data retention"

Lo que sí guarda el proveedor y lo que no.

Zero data retention (ZDR) significa que el proveedor no almacena ni el prompt que mandas ni la respuesta generada más allá del tiempo estricto de procesar la petición. No quedan logs persistentes con el contenido, no se usan para entrenar, no se revisan manualmente. La petición entra, se procesa, se devuelve la respuesta y se descarta.

Lo que sí queda casi siempre son metadatos operacionales: timestamp de la petición, identificador del cliente API, modelo usado, número de tokens consumidos. Eso es necesario para facturación y para detectar abuso. Pero NO el contenido del prompt ni de la respuesta.

Sin ZDR el comportamiento por defecto suele ser: retener 30 días el contenido para "abuse monitoring" (detectar intentos de bypass, contenido ilegal, etc.). Esos 30 días tu prompt vive en infraestructura del proveedor. Para datos no sensibles eso suele ser aceptable. Para datos sanitarios, financieros, secretos comerciales o cualquier cosa cubierta por contrato de confidencialidad cliente, NO lo es.

Activar ZDR es gratuito en todos los proveedores serios. Solo hay que pedirlo: formulario en OpenAI ("Zero Data Retention Request"), check en consola Anthropic ("Privacy mode"), configuración en Azure OpenAI ("Abuse monitoring opt-out"), por defecto en Bedrock.

Lista de cumplimiento mínimo

Lo que tu pyme debe tener firmado y configurado antes de meter datos reales

DPA (Data Processing Agreement) firmado

Con cada proveedor IA al que mandes datos personales. Es un anexo al contrato comercial que define al proveedor como "encargado del tratamiento" bajo art. 28 RGPD. Disponible en pocos clics en consola: Anthropic, OpenAI, Microsoft, AWS, Google.

Zero data retention activado

Para datos sensibles (sanitarios, jurídicos, financieros, biométricos). Para datos personales básicos también es buena práctica aunque no obligatorio. Confirmación por escrito o captura de la configuración guardada en tu carpeta de cumplimiento.

Residencia de datos documentada

Saber dónde se procesan tus datos: EE.UU., UE, multi-región. Si es fuera de UE, salvaguarda válida en marcha (Data Privacy Framework UE-EE.UU., Standard Contractual Clauses). Anotado en tu registro de actividades de tratamiento.

Cláusula de subprocesadores cubierta

OpenAI usa Microsoft Azure por debajo. Anthropic usa AWS. Eso significa subprocesadores. El DPA debe contemplarlos y notificar cambios. Hay que confirmar que los subprocesadores también cumplen RGPD (sí lo hacen, pero documentarlo).

Información al usuario actualizada

Si tu pyme usa un LLM para procesar datos de clientes, en política de privacidad y en avisos al cliente debe aparecer mención al uso de IA generativa y al subencargado. Es transparencia básica RGPD.

Anonimización o minimización en el prompt

Mejor práctica técnica: no mandar al LLM más datos que los estrictamente necesarios. Si vas a clasificar reseñas, manda el texto sin email del cliente. Si vas a resumir un caso, anonimiza nombres. Cuanto menos PII viaja, menos exposición.

Alternativa fuerte

LLM open source en VPS europeo.

Si trabajas con datos sensibles donde "mandar a un tercero" no es aceptable (sanidad, defensa, asesoría jurídica, banca interna), la respuesta es modelos open source self-hosted. Los datos no salen de tu infraestructura, controlas todo el ciclo, y la latencia puede ser incluso menor que la API.

Llama 3.1 70B (Meta) y Mistral Large 2 (Mistral, Francia) son los más usados en empresa europea. Calidad cercana a GPT-4 para la mayoría de tareas empresariales (clasificación, extracción, resumen, RAG). Requieren GPU dedicada: una NVIDIA L40S o A100 cubre uso medio de pyme, con coste 800-1.500 €/mes en Hetzner GPU Cloud o OVHcloud.

Para usos más ligeros (chatbots simples, clasificación) Llama 3.1 8B o Mistral 7B corren cómodamente en CPU o GPU pequeña: VPS de 50-100 €/mes vale. Calidad similar a GPT-3.5 para tareas estructuradas. Es lo que recomendamos a pymes que quieren tocar IA propia sin gastar miles al mes.

El stack técnico habitual: vLLM o Ollama como servidor de inferencia, Open WebUI como frontend tipo ChatGPT, integración con RAG contra tus documentos vía LlamaIndex o LangChain. Montaje inicial: 3-5 días de un perfil técnico. Mantenimiento posterior: 2-4h/mes.

Decisión por perfil

Qué configuración encaja con tu pyme.

01

Pyme con datos no sensibles (marketing, ventas, ops)

API estándar (OpenAI o Anthropic) con DPA firmado y zero data retention activado. Sin necesidad de residencia europea estricta. Coste y velocidad ganan. Cubre 70% de casos de pyme española.

02

Pyme con datos personales sensibles ocasionales

Azure OpenAI o AWS Bedrock en región europea (West Europe, eu-central-1). Garantía de residencia, mismas APIs y modelos, integración más sencilla con Active Directory si ya usas Microsoft.

03

Pyme en sector regulado (sanidad, jurídico, banca)

Open source self-hosted en VPS europeo (Llama 3.1 o Mistral). Inversión inicial 5.000-12.000 € (montaje + GPU primer año) pero datos nunca salen de tu infraestructura. Acompáñalo con RAG sobre tus documentos.

04

Pyme con uso mixto (algunos flujos sensibles, otros no)

Híbrido: API estándar para tareas generales + LLM self-hosted para flujos sensibles. Tu orquestador (n8n, Make) decide a qué motor manda según etiqueta del dato. Es lo más eficiente en coste y cumplimiento.

0
Coste activar ZDR en proveedores serios
€20 M
Multa máxima RGPD por brecha
30 días
Retención por defecto sin ZDR
~100 €/mes
VPS suficiente para Llama 8B
Preguntas frecuentes

Dudas que nos hacéis llegar

No es ilegal per se, pero sin la configuración correcta sí incumples RGPD. Necesitas (1) usar el endpoint API empresarial o ChatGPT Team/Enterprise, no la versión gratuita ni Plus individual; (2) firmar DPA con OpenAI; (3) activar zero data retention si los datos son sensibles; (4) actualizar tu política de privacidad para mencionar el subencargado. Si haces estos cuatro pasos, OpenAI estándar es legalmente usable para datos personales no sensibles. Si son datos sensibles, mejor Azure OpenAI o open source.
Configuración GDPR-compliant

¿Quieres dejar tu stack LLM blindado en RGPD?

Auditoría en 3 horas: revisamos qué LLM usas hoy, cómo está configurado, qué DPAs faltan y dónde hay agujero. Te entregamos checklist firmable y, si lo necesitas, montamos endpoint Azure OpenAI o Bedrock o despliegue open source en tu VPS. Compatible con auditoría AI Act.

Hablemos