Ética en IA y Machine Learning: Las zonas grises de las variables sensibles
Los modelos de machine learning utilizan toda información suministrada, sin atender a su naturaleza discriminatoria o injusta; por lo tanto, es crucial la supervisión humana en su desarrollo y uso.
Cuanta más información proporcionemos a un modelo más y mejores patrones encontrará, mejorando, en general, así su precisión. Sin embargo ciertos patrones existentes en los datos históricos responden a discriminaciones pasadas, y por lo tanto conducirán a resultados injustos y poco éticos.
En machine learning, la precisión y la ética son dos caras de la misma moneda.
A priori, dada la preocupación creciente con el uso responsable de la IA, parece sensato responder de manera intuitiva mitigando o descartando el uso de variables sensibles o "proxies".
Es decir, tratar de "esterilizar" al conjunto de información de aprendizaje para así evitar la prevalencia de patrones indeseables, aún a costa de una caída en precisión. Sin embargo, como veremos, esto sigue dependiendo del caso de uso que se dé.
Esto resulta un punto crítico en soluciones basadas en aprendizaje automático que combinan diferentes contextos temporales. Por ejemplo, en ciertos ámbitos (como educación, empleo, selección de personal, migración, salud, ... ), se puede argumentar que los modelos de diagnóstico o perfilado (presentes) empleen cierta información que no se desee en modelos de estimación o prescripción (futuros).
La responsabilidad "regulada" (AI Act)
Estos ámbitos (educación, salud, seguridad, etc ) son enmarcados por el Reglamento de Inteligenica Artificial (RIA o AI Act) como de Alto Riesgo, y en general los sistemas cuya "decisión contenga riesgo sobre la salud, la seguridad o los derechos fundamentales".
Para ellos, se establecen una serie de exigencias como gestión de riesgos, gobernanza y gestión de datos, información a usuarios, supervisión por personas, etc; sin mención expresa a variables sensibles.
En este sentido se eleva a Prohibido si la IA "explota vulnerabilidades de un grupo específico de personas por su edad, discapacidad o situación social o económica de forma que distorsionen el comportamiento de estas personas y probablemente les causen daños a ellas o a otras".
De esto se deduce que las variables sensibles se pueden emplear con IA, de manera responsable, si con ello no se perjudica en manera alguna a personas, no conlleva los riesgos citados y se cubren las exigencias legales.
Ampliando la perspectiva de lo anterior, se podría llegar a entender que excluir cierta información sensible podría perjudicar a ciertos colectivos; por ejemplo, aquellos que requieran atención especial.

Diagnóstico, la radiografía del presente
Para explicar o ayudar a entender una situación actual y presente, el caso de uso aplicable es el diagnóstico o perfilado. Actúa como una fotografía donde el grado adecuado de precisión es clave. Al analizar datos históricos y actuales, queremos obtener una imagen fiel y realista. Si variables sensibles, como la edad, el sexo, la ubicación geográfica y el nivel socioeconómico, influyen en los resultados querremos mantenerlas. Por ejemplo, edad y sexo pueden ser determinantes al diagnosticar enfermedades.
Atendiendo al uso responsable de la IA, en campos como educación o empleo, buscaremos alternativas o explicadores que eviten perpetuar patrones; por ejemplo, contra el edadismo exploraremos proxies objetivos como "tiempo desde último empleo", "tiempo desde titulación máximo nivel", "años de experiencia".
No obstante, si en el diagnóstico de la situación prima la precisión en los resultados, para obtener una imagen más fiel y realista de la situación presente, puede ser justificable emplear directamente la variable; en este ejemplo, edad.
El diagnóstico nos ayuda a entender la situación actual, derivada de información presente y pasada.
Imaginemos que estamos creando un sistema de aprendizaje automático en el sector de la salud, concretamente para la detección y tratamiento de enfermedades. Pongamos por caso que nuestro objetivo es desarrollar un modelo para identificar enfermedades cardíacas.
En este proceso de diagnóstico, podríamos necesitar considerar variables sensibles como la edad, el sexo y la raza, ya que estos factores pueden ser relevantes para ciertos tipos de enfermedades cardíacas. Por ejemplo, los hombres de mayor edad pueden tener un riesgo más elevado de sufrir ciertos tipos de enfermedades cardíacas. Por tanto, para lograr un diagnóstico preciso, es esencial que estas variables se incluyan en nuestro modelo.
Prescripción: construyendo el futuro responsablemente
De cara a futuro, los sistemas de alto riesgo deben evitar convertirse en prohibidos. Como hemos visto, el uso responsable de la IA conlleva evitar perjuicios, por ejemplo, derivados de la perpetuación de patrones existentes en los datos.
Bajo esta perspectiva, a la hora de prescribir se buscarán modelos que eviten sesgos a costa de una disminución en la precisión de los resultados. Al igual que todo lo demás en el contexto de datos, este impacto se puede medir basado en métricas y con ello sustentar las decisiones derivadas.
Al realizar prescripciones debemos priorizar la ética y considerar las implicaciones de nuestras decisiones.
Volviendo al ejemplo del sector salud, una vez que hemos diagnosticado la enfermedad, nuestro siguiente paso es prescribir un plan de tratamiento. En este punto, ya que todos los pacientes deben tener acceso a los mismos tratamientos de alta calidad y no queremos que factores como el sexo, la raza o la edad influyan en el tipo de tratamiento que se prescribe, deberemos retirar estas variables.
✅ Hay que recordar también que al construir modelos de machine learning, aunque retiremos variables sensibles, no se garantiza evitar sesgos y discriminación, y se debe reservar esta información para realizar análisis posteriores.
Atendiendo a la combinación de resultados de modelos, cabe la posibilidad de realizar prescripciones combinando el resultado de diagnósticos junto con estimaciones adelantadas de contextos, por ejemplo realizando un diagnóstico "presente" y a continuación ajsutarlo en un contexto "futuro".
Conclusión
Desde el punto te vista técnico se entiende que es imposible "esterilizar" a los conjuntos de datos reales de patrones indeseables, resulta prioritario prestar atención a la repercusión de la información sensible que pueda causar perjuicio a cualquier colectivo.
Para lograrlo, se requiere del análisis de datos centrado en las variables sensibles, incluyendo explorar su uso como predictor dentro del modelo, enmascaradas con proxies, o como contraste analítico con diagramas como PDP o ICE; así como explorar el impacto de su mitigación mediante métricas.
Por todo lo anterior, cae en la mano de todas las partes de la cadena de valor prestar especial cuidado al uso responsable de la IA; en especial a los equipos de diseño, desarrollo, gobierno y también funcional, dado que escriben el manual de uso de la herramienta.