Tus datos más limpios...(II). Excel, "Waterproof"
Como ya anunciamos en el
post anterior
, en este segundo vamos a trabajar sobre un ejemplo práctico. Aunque hay muchas herramientas especializadas en Data Cleansing que pueden ser más eficientes, hemos elegido empezar por Excel porque es una herramienta muy sencilla, accesible y para la que hay multitud de recursos de ayuda. Al mismo tiempo, es una herramienta muy potente. Por tanto, es una excelente elección para aquellos que se inician en este campo.
Cuando trabajamos con tantos datos, es fundamental trabajar de forma sistemática y ordenada. Aunque a primera vista parezca que esto nos puede ralentizar, a la larga veremos que sale a cuenta. Por ello, crearemos una hoja de Excel para cada paso lógico, y la etiquetaremos.
- Datos originales
- Datos de trabajo
- Datos limpios
¿Qué tipo de cosas queremos eliminar?
- Registros duplicados
- Caracteres extraños
- Valores fuera de rango
- Sustituir caracteres, por ejemplo, ‘Madrid’ y ‘MAD’
- Seleccionar partes del contenido de una celda, por ejemplo, el código de área de un número de teléfono como 001 (206) 123 4567
- Combinar celdas, por ejemplo, si los campos “nombre” y “apellidos” están en dos columnas separadas
- Distribuir el contenido de una celda en diferentes columnas (operación inversa a la anterior)
Figura 1: Portal de datos abiertos del Gobierno de Canarias.
Figura 2: Añadir hoja nueva.
#0 Lo ponemos “bonito”. Cabeceras más visibles con función MAYÚSCULA
Seleccionamos la fila con los títulos, y, elegimos la opción “Insertar” fila del menú contextual (Botón derecho). Una vez agregada esta fila, vamos a poner los títulos en mayúsculas con la función MAYUSC. Para ello, en la celda vacía escribimos “+” y seleccionamos la función que nos interesa del combo box. Aparecerán las más frecuentes, pero si no está entre ellas, podemos buscarla seleccionando “Más funciones” al final de la lista. En este caso, se trata de una función de texto.
Figura 3: Ejemplo de aplicación de la función MAYUSCULAS.
Una vez damos a “Aceptar”, podemos extender la fórmula por el resto de la fila. Cambiamos el color de relleno al que más nos guste y ocultamos la fila inicial, seleccionando la opción “Ocultar” en el menú contextual, para tener una vista más clara.
Figura 4: Resultado del cambio a mayúsculas y cambio de color.
#1 Buscar y Reemplazar.
Dentro de las opciones del menú Inicio, seleccionamos “Buscar/ Reemplazar”.
Figura 5: Aplicar Función REEMPLAZAR. Como atributos, seleccionamos: Buscar
“Mog n”, Reemplazar
“Mogan”. Marcamos la opción
“Reemplazar todos” y así corrige todos los casos en la columna seleccionada. Esta función también es útil para rellenar campos vacíos, o para sustituir caracteres incorrectos.
-
Por ejemplo, vamos a corregir algunos caracteres que aparecen de forma errónea debido a los acentos: “¢” por “o”, “Tel‚fonos” por “Teléfonos”
También podemos usar esta función para rellenar campos vacíos.
- En este ejemplo, podemos rellenar los campos “Municipio” que están vacíos con una etiqueta “No registrado”. En las opciones de sustitución hemos elegido un formato diferente (color rojo y cursiva) para detectarlos mejor.
#2 Combinar/Separar texto.
Vemos que, en principio, los campos están separados por “;”. El problema es que en unas celdas están todos los campos, y en otras no. También, cuando hay varios números de teléfono, en algunos casos están separados por “,”, y en otros por “-“. Vamos a cambiar estos guiones por comas para que estén todos igual. Después, separaremos la columna de los teléfonos.
Dentro del menú “Datos”, seleccionamos la opción “Texto en Columnas”. Le diremos al asistente que son delimitados por “;” y “C” para separar los teléfonos del resto de datos.
Figura 8: Ejemplo de separar texto en columnas.
Figura 9: Resultado de aplicar "texto en columnas".
#3 Funciones IZQUIERDA/DERECHA
Figura 10: Ejemplo de aplicación de la función IZQUIERDA.
Figura 11: Resultado.
#4 Eliminar duplicados
Añadimos una nueva columna a la derecha de la columna Teléfonos. Vamos introducir en la primera celda una función lógica que compare cada valor con el de la celda superior. Como antes, añadimos en la primera celda el signo “+” para agregar una función y seleccionamos la función lógica “SI”. El argumento de la prueba lógica es la comparación entre el valor de las dos celdas (en este caso J2=J3). Si son iguales se cumplirá la condición “Valor_si_verdadero” y aparecerá una etiqueta “Duplicado”. Si no, lo dejará en blanco.
Figura 12: Ejemplo de aplicación de la función lógica SI.
Figura 13: Valores duplicados detectados.
Recordamos que, al separar los teléfonos, nos quedaron algunos datos de faxes en esa columna, y otra con un batiburrillo de email, fax y página web. Vamos a intentar organizar estos datos. Como los datos de correo ya están bien separados, podemos eliminar el resto de etiqueta “orreos”.
#5 Función CONCATENAR
Figura 14: Los datos están distribuidos desordenadamente entre distintas columnas.
Figura 15: Agrupamos todos los datos en una única columna con la función CONCATENAR.
Figura 16: Convertimos la etiqueta Página web en un separador "*".
Y copiamos la columna resultante y la pegamos como “Pegado Especial: valores” en una columna nueva. De esta forma, podemos aplicar nuevamente la función “Texto en columnas”, usando como separador el carácter “*”.
#6 ESPACIOS
Figura 17: Datos separados, pero con espacios blancos sobrantes.
Figura 18: Ejemplo de la función ESPACIOS para eliminar espacios en blanco sobrantes.
Por si acaso te perdiste el primer post de esta serie, aquí tienes el enlace: Tus datos más limpios, casi sin frotar.
Cloud Híbrida
Ciberseguridad & NaaS
AI & Data
IoT y Conectividad
Business Applications
Intelligent Workplace
Consultoría y Servicios Profesionales
Pequeña y Mediana Empresa
Sanidad y Social
Industria
Retail
Turismo y Ocio
Transporte y Logística
Energía y Utilities
Banca y Finanzas
Deporte
Ciudades Inteligentes
