Del 'data swamp' al 'data lake': cómo convertir el caos de datos en valor gobernado
Los data lakes prometen flexibilidad a gran escala, pero sin controles de gobernanza el lago se convierte en un pantano de datos inutilizable. En este artículo exploraremos los desafíos a los que nos enfrentamos y diversas soluciones que marcarán nuestro camino al éxito. El problema Por qué la calidad y el gobierno del dato importan más que nunca El bajo precio del almacenamiento en la nube ha facilitado enormemente la ingesta de datos. Sin embargo, esto genera una paradoja: resulta más sencillo almacenar información que organizarla, validarla o eliminarla. Como consecuencia, se acumulan conjuntos de datos sin responsable claro, con estructuras inconsistentes y carentes de metadatos. Esto causa: Pérdida de productividad: los analistas dedican hasta el 40% de su tiempo a validar datos antes de poder usarlos. Riesgo regulatorio: datos sin trazabilidad ni controles de retención complican auditorías y obligaciones legales. Costes ocultos: las consultas sobre datos mal organizados disparan el consumo de cómputo y difícil de predecir. Duplicación de esfuerzos: sin confianza en los datos disponibles, los equipos reconstruyen procesos y crean copias no controladas. Gobernanza Datos gobernados, decisiones inteligentes. El plano de control del 'data lake' El gobierno del dato no es una capa de documentación. Es el plano de control que articula quién puede ingestar datos, modificar esquemas, otorgar acceso y gestionar el ciclo de vida del dato. Sin este plano, el data lake tiende a convertirse en un pantano de datos. Contrato de ingesta obligatorio El mecanismo más efectivo para evitar el caos es exigir que toda ingesta cumpla un contrato mínimo. Cuando este contrato es opcional, el data lake deriva en un repositorio sin trazabilidad ni contexto. Modelo de propiedad distribuida Centralizar la responsabilidad en el equipo de plataforma genera cuellos de botella y diluye la rendición de cuentas. Sistema fuente: define y garantiza las reglas de calidad en origen. Equipo de plataforma: aplica técnicamente las políticas de gobierno. Responsables de dominio: supervisan la coherencia semántica del área. Propietarios de ingesta: implementan validaciones en el punto de entrada. Calidad del dato Tu mejor activo es la calidad del dato. Seis dimensiones que deben medirse, no asumirse La calidad no es una condición binaria. Es un concepto multidimensional con criterios objetivos, umbrales aceptables y métricas de seguimiento continuo 'Quality gates' en la ingesta La calidad debe garantizarse en el punto de entrada al data lake. La validación posterior sería insuficiente para evitar la propagación de errores. Validación estructural del esquema: tipos de datos, obligatoriedad de campos y restricciones. Verificación de integridad referencial frente a sistemas relacionados. Detección de duplicados y gestión de late-arriving data. Monitorización automatizada con alertas al incumplir umbrales. Los registros inválidos van a cuarentena — nunca se descartan en silencio. Metadatos El ADN de los datos. El índice operativo del lago Los metadatos no constituyen documentación opcional; representan un índice operativo esencial que reduce los tiempos de descubrimiento y evita la duplicación de esfuerzos. Pero, ¿qué son realmente los metadatos? Los metadatos constituyen el marco descriptivo que permite a una organización comprender qué datos posee, cómo se originan, dónde residen y qué significan para el negocio. Incluyen información sobre procesos técnicos y comerciales, reglas y restricciones, así como estructuras de datos tanto lógicas como físicas. Este conocimiento abarca tres dimensiones: Los datos en sí: bases de datos, elementos, modelos y esquemas. Los conceptos que representan: procesos de negocio, sistemas, código e infraestructura. Las conexiones entre ambos: relaciones, dependencias y flujos. — Existen tres tipos de metadatos (TON): Técnicos: ¿Dónde se almacena ese dato? Organizativos / Operacionales: ¿Quién genera ese dato? Negocio. ¿Cómo se clasifica ese dato? Valor organizacional Una gestión integrada de estos tres tipos de metadatos permite: Trazabilidad del dato desde su origen hasta su consumo Gobernanza basada en responsabilidades claras Interoperabilidad entre sistemas y equipos Confianza en la calidad y el significado de la información — Sin metadatos, los datos son volumen sin contexto. Con ellos, se convierten en un activo estratégico comprensible y gobernable. Ciclo de vida El alfa y el omega del dato. La retención no es infinita Muchos data lakes se diseñan asumiendo retención indefinida, lo cual es insostenible por el marco regulatorio y el coste de almacenamiento. Cada dataset necesita una clase de retención con un destino explícito: Eliminación: borrado programado al finalizar el período de retención establecido. Archivado: cold storage con empaquetado inmutable y cadena de custodia auditada. Retención legal: suspensión de toda acción mientras exista obligación legal o regulatoria vigente. — El sistema tiene que demostrar en cualquier momento: Qué datos existían. Quién accedió a ellos Por qué fueron eliminados o conservados. Sin esto, cualquier auditoría o e-discovery se convierte en un proceso manual y de alto riesgo. Seguridad La seguridad, el activo innegociable. Privilegios mínimos por diseño La concentración de datos en un lago incrementa el atractivo del acceso privilegiado. El control de acceso debe derivarse de la clasificación del dato, no de su ubicación. Basado en políticas: las reglas de acceso se derivan de la clasificación y propósito del dato, no de listas manuales por usuario. Just-in-time: los privilegios elevados se conceden de forma temporal, con justificación y trazabilidad completa. Segmentación administrativa: ningún rol individual tiene acceso irrestricto a la totalidad de los datos. Auditoría centralizada: registro consolidado de quién accede a qué, cuándo y desde qué contexto. Diagnóstico La clave es el análisis. Síntomas y causas raíz Recomendaciones Soluciones al alcance de todos. Acciones concretas Implementar contratos de ingesta antes de escalar: no incorporar nuevos dominios sin que la captura de metadatos y la validación de calidad sean obligatorias. Definir propietarios de datos: la plataforma habilita, pero la responsabilidad de la exactitud recae en el negocio. Automatizar las puertas de calidad: las validaciones manuales no escalan. Deben integrarse en los procesos de ingesta desde el primer día. Hacer ejecutables las políticas de retención: el sistema debe archivar o eliminar automáticamente al vencimiento de las políticas de retención. Monitorizar el coste por carga de trabajo: separar el cómputo exploratorio del analítico en producción para evitar desviaciones presupuestarias. Integrar seguridad con clasificación del dato: los controles de acceso deben derivarse de la sensibilidad de la información, no de su ubicación física. Conclusión El 'data lake' no es una opción, es una evolución necesaria. Una evolución que necesita integrar Gobierno del dato sin condiciones, y no solo por saber qué hay y dónde, sino para dar un salto cualitativo en la explotación de los datos y la Inteligencia Artificial. Governance + intelligence = success Donde, Governance: el Gobierno del dato garantiza coherencia, calidad, trazabilidad y confianza, estableciendo las reglas del juego que sustentan y dan solidez a todo el ecosistema del dato. Intelligence: la Inteligencia Artificial interpreta, aprende y genera valor a partir de los datos, desplegando su verdadero potencial, pero siempre apoyándose en unos cimientos fiables. AUTORES Héctor García Especialista en gobierno del dato Clara Jiménez Especialista en gobierno del dato * * * AI & Data De la sospecha a la confianza: el viaje real hacia un mejor Gobierno del dato 20 de mayo de 2025
23 de junio de 2026