1. Introducción
Datamask es una plataforma SaaS de anonimización y seudonimización de datos diseñada para el sector público. Permite proteger información personal y sensible en entornos estructurados (bases de datos relacionales) y no estructurados (documentos, imágenes, correo), garantizando el cumplimiento del RGPD, la LOPDGDD, la Directiva NIS2 y el Esquema Nacional de Seguridad (ENS).
Este manual está dirigido a dos perfiles:
- Perfil usuario/funcional: personal que opera la consola para revisar y validar resultados de anonimización.
- Perfil administrador: personal técnico que configura conectores, políticas, identidades y la integración por API.
Anonimización vs. seudonimización. La anonimización es irreversible: el dato resultante queda fuera del ámbito del RGPD. La seudonimización es reversible mediante claves custodiadas y sigue considerándose dato personal.
2. Arquitectura
La plataforma se entrega como SaaS con recursos dedicados, alojada en CPDs ubicados en regiones de la Unión Europea, y se conecta al cloud híbrido de EJIE (nube pública e infraestructura on-premise) mediante túneles VPN IPsec/IKEv2.
El flujo de procesamiento es el siguiente:
- Ingesta: los datos llegan vía conector o API a través de la VPN.
- Clasificación IA: el motor NER (modelos Gemini desplegados en región UE, sin uso del dato para entrenamiento) identifica entidades en castellano, euskera e inglés.
- Transformación: datos estructurados → FPE/tokenización; no estructurados → redacción NLP/OCR/visión.
- Orquestación de salida: el resultado se entrega al consumidor y los buffers de memoria se purgan.
Zero Data at Rest. Los datos se procesan en volúmenes de memoria efímeros cifrados con AES-256. No se almacenan copias de los datos originales ni transformados en disco persistente.
3. Primeros pasos (Onboarding · Fase 0)
El despliegue inicial lo realiza el fabricante junto con los responsables de seguridad de EJIE:
- Discovery: inventariado de activos de datos y mapeo de orígenes.
- Red: configuración de la VPN entre la solución cloud y el cloud híbrido de EJIE.
- Identidades: integración con Okta y Microsoft EntraID (SAML 2.0 / OpenID Connect).
- Conexiones de datos: al menos una base de datos relacional on-premise y otra en nube pública.
- Multi-cliente: configuración del aislamiento de accesos, orígenes y plantillas por cliente.
- API: habilitación del API para su uso desde desarrollos on-premise y en nube pública.
4. La consola de administración
La consola web es el punto central de operación. Su navegación lateral incluye:
- Panel: métricas de registros procesados, entidades detectadas, nivel de riesgo de re-identificación y estado de túneles VPN.
- Fuentes de datos: alta y gestión de conectores.
- Políticas: definición de tipologías, listas y excepciones.
- Procesos: trabajos online y por lotes con su estado.
- Supervisión: revisión manual de resultados (HITL).
- Auditoría: registro de actividad y trazabilidad.
El acceso se realiza mediante SSO corporativo; los permisos se mapean desde los grupos de seguridad de EntraID.
5. Fuentes de datos
Bases de datos relacionales
Conectores nativos para Oracle, SQL Server, PostgreSQL y MySQL, así como BBDD nativas de nube pública (AWS, Azure, GCP). El conector escanea el esquema y sugiere reglas de anonimización a partir del nombre de las columnas y muestras de contenido. Se admite la selección de tablas y campos concretos.
Datos no estructurados
Servidores de archivos SMB/NFS, SharePoint Online, Amazon S3 y Azure Blob Storage. Formatos soportados:
- Ofimática:
.doc,.docx,.xls,.xlsx,.ppt,.pptx - Texto plano
.txt,PDF,JSON - Imágenes
.jpg,.jpeg,.png,.tiff - Correo electrónico
.eml,.msg
6. Políticas de anonimización
Las políticas se configuran por iniciativa o proyecto y determinan qué se detecta y cómo se transforma.
Tipologías de datos
Incluidas de serie: Nombre, Apellidos, Dirección, Email, Fecha, IBAN, IP (IPv4/IPv6), NIF/NIE, Seguridad Social, Pasaporte, Teléfonos, Matrículas, URLs, Entidades jurídicas, Cantidades monetarias y Normativa. El catálogo es ampliable y personalizable.
Listas y excepciones
- Listas blancas: términos que nunca deben anonimizarse.
- Listas negras: términos que siempre deben anonimizarse.
- Excepciones positivas/negativas: reglas de afinado por contexto.
- Activación/desactivación de tipologías mediante configuración.
Técnicas de sustitución
- Enmascaramiento (blacklining, asteriscado).
- Tokenización basada en clasificación de entidades.
- Generación de datos sintéticos equivalentes en tipología y extensión.
7. Supervisión manual (HITL)
Antes de confirmar un resultado, el operador puede revisarlo en la consola con control total sobre el proceso:
- Revisar entidades detectadas con su tipo y puntuación de confianza.
- Incluir o excluir datos concretos del proceso de anonimización.
- Aplicar cambios globales en el documento (p. ej. tratar todas las apariciones de una entidad).
- Confirmar para ejecutar la transformación irreversible o reversible según la política.
La revisión manual es opcional por política: los flujos batch de alto volumen pueden ejecutarse de forma automática y reservar la supervisión para tipologías de mayor sensibilidad.
8. Procesamiento
En tiempo real (online)
Anonimización síncrona de registros o documentos individuales, vía consola o API REST.
Por lotes (batch)
- Carga de múltiples documentos.
- Monitorización del estado de cada trabajo.
- Descarga masiva de resultados.
Los trabajos batch se orquestan sobre un clúster con escalado horizontal según la profundidad de la cola, evitando que los picos de ingesta degraden la disponibilidad.
9. Datos estructurados (FPE y claves)
Para campos como DNI, Seguridad Social o IBAN se utiliza Cifrado con Preservación de Formato (FPE) con el algoritmo FF3-1 (NIST SP 800-38G Rev.1). El dato resultante mantiene la estructura original, de modo que las aplicaciones de destino siguen validando correctamente.
La tokenización consistente garantiza que un mismo valor de origen se transforme siempre en el mismo token entre bases de datos, permitiendo cruces analíticos sin exponer la identidad. Las claves se custodian de forma centralizada y separada del dato.
Dominios pequeños. Para campos cortos (p. ej. códigos postales) se aplica relleno determinista o combinación con atributos contextuales, garantizando el tamaño mínimo de dominio recomendado por el NIST.
10. Documentos, OCR y visión
Para PDFs e imágenes escaneadas se combinan dos vías en paralelo:
- OCR + NER: extracción de texto con análisis de layout (orientación horizontal y vertical) y posterior detección de entidades.
- Visión artificial: detección de firmas manuscritas y digitales, sellos, logotipos, códigos QR y de barras.
Las coordenadas detectadas se consolidan y se aplican máscaras irreversibles (sustitución de píxeles), aplanando el documento para impedir la recuperación del contenido subyacente.
11. Datos sintéticos
Para analítica y publicación en Open Data se generan datasets sintéticos que conservan las distribuciones estadísticas del original sin relación 1:1 con individuos reales. Incluye un filtro de ataque de membresía para validar el riesgo de privacidad antes de la entrega.
12. API REST
La API permite integrar la anonimización en desarrollos propios, tanto on-premise como en nube pública. Está protegida por OAuth2.
POST /v1/anonymize
Authorization: Bearer <token>
Content-Type: application/json
{
"policy": "ejie-expedientes",
"language": "auto", // es | eu | en | auto
"mode": "anonymize", // anonymize | pseudonymize
"payload": { "text": "El ciudadano con DNI 12345678Z..." }
}
Respuesta:
{
"status": "ok",
"entities": [
{ "type": "NIF", "score": 0.99, "action": "FPE" }
],
"result": { "text": "El ciudadano con DNI 98532147M..." }
}
13. Idiomas
La plataforma anonimiza y seudonimiza en castellano, euskera e inglés. La detección de idioma puede ser automática o forzarse por política. Los modelos están optimizados para la morfología aglutinante del euskera y la terminología administrativa local.
14. Seguridad y cumplimiento
- Cifrado en tránsito: TLS 1.2 o superior; VPN IPsec/IKEv2 con inspección profunda de paquetes.
- Cifrado en reposo: AES-256 para metadatos y claves de seudonimización (custodiados separados del dato).
- Credenciales: hashing con Argon2.
- No persistencia de datos procesados, salvo requerimiento explícito.
- Accesos: autenticación segura (SSO) y canales administrativos cifrados (SSH).
- Trazabilidad: registro de actividad (logging) de todos los procesos.
- Certificaciones: ENS e ISO/IEC 27001 vigentes; cumplimiento RGPD, LOPDGDD y NIS2.
15. Soporte y formación
Soporte
Atención mediante creación de tickets en horario de servicio de 8h a 17h, de lunes a viernes. El licenciamiento por suscripción incluye documentación oficial, nuevas versiones y actualizaciones, y un procesamiento anual mínimo de 1 TB de datos.
Formación incluida
- Perfil usuario: 2 sesiones de 4 horas — uso de la consola UI y de los canales de integración (BBDD, API).
- Perfil administrador: 3 sesiones de 4 horas — configuración de la integración por API, conectores a orígenes de datos, e identidades/grupos/permisos.
16. Glosario
- FPE: Format Preserving Encryption (cifrado que preserva el formato).
- NER: Named Entity Recognition (reconocimiento de entidades nombradas).
- HITL: Human-in-the-loop (supervisión humana del proceso).
- K-anonimidad / L-diversidad: métricas de protección frente a re-identificación.
- Ventana de riesgo de transición: intervalo en que el dato identificable reside en memoria antes de su transformación.
¿Necesitas una demostración o tienes dudas de integración? Escríbenos a datamask@peninsula.co.