Gestión de Riesgos en Privacidad e IA para proteger los datos personales

30 de octubre de 2024

Resulta innegable la existencia de una estrecha relación entre los modelos de IA y la protección de datos de carácter personal, siendo esperable que esta relación se explore cada vez con mayor profundidad conforme se extienda el uso de la IA.

En este sentido, recientemente El Comisario de Hamburgo para la Protección de Datos y la Libertad de Información publicó un documento de debate en el que analiza y se pronuncia al respecto de la aplicabilidad del Reglamento General de Protección de Datos (RGPD) a modelos de lenguaje de gran escala (LLM).

La Autoridad argumenta que estos modelos no almacenan datos en su formato original, ya que la información en formato texto utilizados en su entrenamiento se transforman en tokens o fragmentos de texto, lo que hace que no puedan ser identificados directamente.

Consideraciones en el uso de modelos de IA

La 'tokenización' es un proceso mediante el cual el texto se convierte en secuencias de fragmentos más pequeños que no contienen la información original en su totalidad, lo que hace prácticamente imposible identificar a una persona de manera directa a partir de estos fragmentos.

Una vez finalizado el entrenamiento, el modelo únicamente conserva patrones matemáticos representados por los pesos de las conexiones neuronales, sin almacenar el texto original. En base a lo anterior, afirma que el mero almacenamiento de información por un LLM no constituye un tratamiento de datos personales en el sentido del RGPD.

Los LLM pueden comprometer la privacidad al generar información que coincida con datos personales, incluso sin almacenar textos completos.

Sin embargo, este enfoque ha sido criticado por expertos como David Rosenthal que señalan que, aunque los LLM no memoricen datos explícitamente, sí son capaces de generar información coherente que coincida con datos personales si estas han aparecido repetidamente en los datos de entrenamiento, lo cual plantea riesgos asociados con el uso de la IA incluso aunque no haya un almacenamiento directo.

Identificar los riesgos

En términos de cumplimiento normativo, un punto común de la regulación europea sobre privacidad (RGPD) y la reciente regulación sobre IA es el enfoque orientado a la gestión del riesgo, lo cual va a exigir a las organizaciones adecuar esta gestión a nuevas realidades que surgen de la mano de la adopción de tecnologías emergentes como la Inteligencia Artificial.

La falta de transparencia e interpretabilidad en los LLM dificulta el análisis de cómo se procesan los datos personales y complica la auditoría conforme al RGPD.

Un marco de referencia a la hora de identificar riesgos en este contexto es el desarrollado por el Massachusetts Institute of Technology (MIT) en su Repositorio de Riesgos de IA, una base de datos completa y viva de más de 700 riesgos de IA categorizados por su causa y dominio de riesgo sobre la base de 43 marcos de trabajo de riesgos relacionados con IA. Entre estos riesgos destacan:

  • Compromiso de la privacidad por filtración de información sensible: como ya hemos indicado, aunque los LLM no almacenan textos completos, pueden generar información que coincida con datos personales.
  • Información falsa o engañosa: los LLM pueden generar contenido incorrecto o malinterpretado sobre personas, afectando su reputación y la integridad de los datos personales tratados.
  • Desinformación y manipulación: los LLM pueden ser utilizados en campañas malintencionadas para manipular información personal o influir en el comportamiento de las personas, lo que, aunque no sea intencional, puede derivar en un tratamiento indebido de datos.
  • Falta de transparencia e interpretabilidad: los LLM funcionan como «cajas negras», lo que dificulta el análisis de cómo se procesan los datos personales y complica la auditoría en términos de cumplimiento del RGPD.
  • Vulnerabilidades de seguridad: los LLM pueden ser vulnerables a ataques que explotan debilidades en su infraestructura, lo que podría resultar en accesos no autorizados y la exposición de datos personales.

Cumplimiento normativo y reducción de riesgos

Sobre la base de estos riesgos generales tomados de un marco de referencia, pueden surgir dudas respecto al cumplimiento de los principios relativos al tratamiento recogidos en el artículo 5 del RGPD, como por ejemplo el principio de exactitud: si los LLM pueden generar información incorrecta basada en los datos con los que fueron entrenados, podría producirse una propagación de datos personales inexactos. Además, no existe un mecanismo fácil para corregir errores en los datos generados por el modelo, lo que contraviene el principio de exactitud.

Otra duda que puede plantearse es qué encaje tiene el principio de minimización cuando estos modelos suelen estar entrenados con ingentes cantidades de datos (muchas veces provenientes de 'datasets' no estructurados y de difícil control) y si es posible determinar que la información personal utilizada en el entrenamiento del modelo era únicamente la necesaria para lograr los objetivos del modelo.

La integración de principios de minimización de datos y limitación de acceso desde el diseño puede identificar y mitigar riesgos de forma preventiva.

Lo anterior refuerza la idea de que los sistemas de gestión de riesgo en IA van a necesitar estar alineados con los que ya vienen desarrollándose en materia de cumplimiento del RGPD.

Por ello será clave tener presente el principio de privacidad desde el diseño y por defecto (PbD) para aplicar medidas que aseguran que solo se traten los datos personales necesarios para cada propósito específico. Integrar principios de minimización de datos, limitación de acceso y conservación adecuada desde el inicio del diseño de sistemas y procesos, permite identificar y mitigar riesgos de forma preventiva.

Imagen: DC Studio / Freepik.