Manual de usuario

1. Introducción

Datamask es una plataforma SaaS de anonimización y seudonimización de datos diseñada para el sector público. Permite proteger información personal y sensible en entornos estructurados (bases de datos relacionales) y no estructurados (documentos, imágenes, correo), garantizando el cumplimiento del RGPD, la LOPDGDD, la Directiva NIS2 y el Esquema Nacional de Seguridad (ENS).

Este manual está dirigido a dos perfiles:

Perfil usuario/funcional: personal que opera la consola para revisar y validar resultados de anonimización.
Perfil administrador: personal técnico que configura conectores, políticas, identidades y la integración por API.

Anonimización vs. seudonimización. La anonimización es irreversible: el dato resultante queda fuera del ámbito del RGPD. La seudonimización es reversible mediante claves custodiadas y sigue considerándose dato personal.

2. Arquitectura

La plataforma se entrega como SaaS con recursos dedicados, alojada en CPDs ubicados en regiones de la Unión Europea, y se conecta al cloud híbrido de EJIE (nube pública e infraestructura on-premise) mediante túneles VPN IPsec/IKEv2.

El flujo de procesamiento es el siguiente:

Ingesta: los datos llegan vía conector o API a través de la VPN.
Clasificación IA: el motor NER (modelos Gemini desplegados en región UE, sin uso del dato para entrenamiento) identifica entidades en castellano, euskera e inglés.
Transformación: datos estructurados → FPE/tokenización; no estructurados → redacción NLP/OCR/visión.
Orquestación de salida: el resultado se entrega al consumidor y los buffers de memoria se purgan.

Zero Data at Rest. Los datos se procesan en volúmenes de memoria efímeros cifrados con AES-256. No se almacenan copias de los datos originales ni transformados en disco persistente.

3. Primeros pasos (Onboarding · Fase 0)

El despliegue inicial lo realiza el fabricante junto con los responsables de seguridad de EJIE:

Discovery: inventariado de activos de datos y mapeo de orígenes.
Red: configuración de la VPN entre la solución cloud y el cloud híbrido de EJIE.
Identidades: integración con Okta y Microsoft EntraID (SAML 2.0 / OpenID Connect).
Conexiones de datos: al menos una base de datos relacional on-premise y otra en nube pública.
Multi-cliente: configuración del aislamiento de accesos, orígenes y plantillas por cliente.
API: habilitación del API para su uso desde desarrollos on-premise y en nube pública.

4. La consola de administración

La consola web es el punto central de operación. Su navegación lateral incluye:

Panel: métricas de registros procesados, entidades detectadas, nivel de riesgo de re-identificación y estado de túneles VPN.
Fuentes de datos: alta y gestión de conectores.
Políticas: definición de tipologías, listas y excepciones.
Procesos: trabajos online y por lotes con su estado.
Supervisión: revisión manual de resultados (HITL).
Auditoría: registro de actividad y trazabilidad.

El acceso se realiza mediante SSO corporativo; los permisos se mapean desde los grupos de seguridad de EntraID.

5. Fuentes de datos

Bases de datos relacionales

Conectores nativos para Oracle, SQL Server, PostgreSQL y MySQL, así como BBDD nativas de nube pública (AWS, Azure, GCP). El conector escanea el esquema y sugiere reglas de anonimización a partir del nombre de las columnas y muestras de contenido. Se admite la selección de tablas y campos concretos.

Datos no estructurados

Servidores de archivos SMB/NFS, SharePoint Online, Amazon S3 y Azure Blob Storage. Formatos soportados:

Ofimática: .doc, .docx, .xls, .xlsx, .ppt, .pptx
Texto plano .txt, PDF, JSON
Imágenes .jpg, .jpeg, .png, .tiff
Correo electrónico .eml, .msg

6. Políticas de anonimización

Las políticas se configuran por iniciativa o proyecto y determinan qué se detecta y cómo se transforma.

Tipologías de datos

Incluidas de serie: Nombre, Apellidos, Dirección, Email, Fecha, IBAN, IP (IPv4/IPv6), NIF/NIE, Seguridad Social, Pasaporte, Teléfonos, Matrículas, URLs, Entidades jurídicas, Cantidades monetarias y Normativa. El catálogo es ampliable y personalizable.

Listas y excepciones

Listas blancas: términos que nunca deben anonimizarse.
Listas negras: términos que siempre deben anonimizarse.
Excepciones positivas/negativas: reglas de afinado por contexto.
Activación/desactivación de tipologías mediante configuración.

Técnicas de sustitución

Enmascaramiento (blacklining, asteriscado).
Tokenización basada en clasificación de entidades.
Generación de datos sintéticos equivalentes en tipología y extensión.

7. Supervisión manual (HITL)

Antes de confirmar un resultado, el operador puede revisarlo en la consola con control total sobre el proceso:

Revisar entidades detectadas con su tipo y puntuación de confianza.
Incluir o excluir datos concretos del proceso de anonimización.
Aplicar cambios globales en el documento (p. ej. tratar todas las apariciones de una entidad).
Confirmar para ejecutar la transformación irreversible o reversible según la política.

La revisión manual es opcional por política: los flujos batch de alto volumen pueden ejecutarse de forma automática y reservar la supervisión para tipologías de mayor sensibilidad.

8. Procesamiento

En tiempo real (online)

Anonimización síncrona de registros o documentos individuales, vía consola o API REST.

Por lotes (batch)

Carga de múltiples documentos.
Monitorización del estado de cada trabajo.
Descarga masiva de resultados.

Los trabajos batch se orquestan sobre un clúster con escalado horizontal según la profundidad de la cola, evitando que los picos de ingesta degraden la disponibilidad.

9. Datos estructurados (FPE y claves)

Para campos como DNI, Seguridad Social o IBAN se utiliza Cifrado con Preservación de Formato (FPE) con el algoritmo FF3-1 (NIST SP 800-38G Rev.1). El dato resultante mantiene la estructura original, de modo que las aplicaciones de destino siguen validando correctamente.

La tokenización consistente garantiza que un mismo valor de origen se transforme siempre en el mismo token entre bases de datos, permitiendo cruces analíticos sin exponer la identidad. Las claves se custodian de forma centralizada y separada del dato.

Dominios pequeños. Para campos cortos (p. ej. códigos postales) se aplica relleno determinista o combinación con atributos contextuales, garantizando el tamaño mínimo de dominio recomendado por el NIST.

10. Documentos, OCR y visión

Para PDFs e imágenes escaneadas se combinan dos vías en paralelo:

OCR + NER: extracción de texto con análisis de layout (orientación horizontal y vertical) y posterior detección de entidades.
Visión artificial: detección de firmas manuscritas y digitales, sellos, logotipos, códigos QR y de barras.

Las coordenadas detectadas se consolidan y se aplican máscaras irreversibles (sustitución de píxeles), aplanando el documento para impedir la recuperación del contenido subyacente.

11. Datos sintéticos

Para analítica y publicación en Open Data se generan datasets sintéticos que conservan las distribuciones estadísticas del original sin relación 1:1 con individuos reales. Incluye un filtro de ataque de membresía para validar el riesgo de privacidad antes de la entrega.

12. API REST

La API permite integrar la anonimización en desarrollos propios, tanto on-premise como en nube pública. Está protegida por OAuth2.

POST /v1/anonymize
Authorization: Bearer <token>
Content-Type: application/json

{
  "policy": "ejie-expedientes",
  "language": "auto",        // es | eu | en | auto
  "mode": "anonymize",       // anonymize | pseudonymize
  "payload": { "text": "El ciudadano con DNI 12345678Z..." }
}

Respuesta:

{
  "status": "ok",
  "entities": [
    { "type": "NIF", "score": 0.99, "action": "FPE" }
  ],
  "result": { "text": "El ciudadano con DNI 98532147M..." }
}

13. Idiomas

La plataforma anonimiza y seudonimiza en castellano, euskera e inglés. La detección de idioma puede ser automática o forzarse por política. Los modelos están optimizados para la morfología aglutinante del euskera y la terminología administrativa local.

14. Seguridad y cumplimiento

Cifrado en tránsito: TLS 1.2 o superior; VPN IPsec/IKEv2 con inspección profunda de paquetes.
Cifrado en reposo: AES-256 para metadatos y claves de seudonimización (custodiados separados del dato).
Credenciales: hashing con Argon2.
No persistencia de datos procesados, salvo requerimiento explícito.
Accesos: autenticación segura (SSO) y canales administrativos cifrados (SSH).
Trazabilidad: registro de actividad (logging) de todos los procesos.
Certificaciones: ENS e ISO/IEC 27001 vigentes; cumplimiento RGPD, LOPDGDD y NIS2.

15. Soporte y formación

Soporte

Atención mediante creación de tickets en horario de servicio de 8h a 17h, de lunes a viernes. El licenciamiento por suscripción incluye documentación oficial, nuevas versiones y actualizaciones, y un procesamiento anual mínimo de 1 TB de datos.

Formación incluida

Perfil usuario: 2 sesiones de 4 horas — uso de la consola UI y de los canales de integración (BBDD, API).
Perfil administrador: 3 sesiones de 4 horas — configuración de la integración por API, conectores a orígenes de datos, e identidades/grupos/permisos.

16. Glosario

FPE: Format Preserving Encryption (cifrado que preserva el formato).
NER: Named Entity Recognition (reconocimiento de entidades nombradas).
HITL: Human-in-the-loop (supervisión humana del proceso).
K-anonimidad / L-diversidad: métricas de protección frente a re-identificación.
Ventana de riesgo de transición: intervalo en que el dato identificable reside en memoria antes de su transformación.

¿Necesitas una demostración o tienes dudas de integración? Escríbenos a datamask@peninsula.co.

Manual de usuario y administración

1. Introducción

2. Arquitectura

3. Primeros pasos (Onboarding · Fase 0)

4. La consola de administración

5. Fuentes de datos

Bases de datos relacionales

Datos no estructurados

6. Políticas de anonimización

Tipologías de datos

Listas y excepciones

Técnicas de sustitución

7. Supervisión manual (HITL)

8. Procesamiento

En tiempo real (online)

Por lotes (batch)

9. Datos estructurados (FPE y claves)

10. Documentos, OCR y visión

11. Datos sintéticos

12. API REST

13. Idiomas

14. Seguridad y cumplimiento

15. Soporte y formación

Soporte

Formación incluida

16. Glosario