En éste tercer y último post de la serie sobre Datacleaning vamos a ver la diferencia entre trabajar con una herramienta más generalista, como es Excel a hacerlo con una especializada y de uso libre. Para este ejemplo hemos escogido la herramienta
Trifacta Wrangler, una de las más reconocidas en el campo de depuración de datos.
Vamos a trabajar sobre un informe Excel sobre los comerciales de una empresa. Tiene este aspecto:
Figura 1: Datos de trabajo en formato Excel
Trifacta Wrangler es una aplicación que, como es habitual, tiene una opción gratuita y otras de pago (Wrangler Edge y Wrangler Enterprise). Para poder utilizarla, debemos descargarla y registrarnos.
En el siguiente vídeo vamos a ver cómo usar esta aplicación para depurar el dataset de ejemplo.
Conclusiones:
La
tarea de depuración de datos es una de las que más tiempo ocupa a los Data Scientist. Es una tarea que se puede realizar
sin necesidad de tener conocimientos de programación, tanto con herramientas generalistas, como Excel, como con herramientas más especializadas. En nuestro caso, hemos analizado un ejemplo con Trifacta Wrangler.
Lo que está claro es que la
tarea será más o menos eficiente, según la herramienta que elijamos. En el caso del Excel, es sencilla porque se trata de una aplicación muy popular. Por tanto, la curva de aprendizaje es muy cómoda, y es fácil encontrar innumerables recursos de ayuda. Sin embargo, resulta algo tediosa y no es reproducible/exportable a otros casos. (O si lo es, es a base de crear macros más o menos complejas que requieren un nivel de conocimientos de Excel bastante profundo.)
Trifacta Wrangler no es tan intuitivo, y para datasets pequeños o muy diferentes entre sí, a primera vista no parece aportar grandes ventajas. Sin embargo, su potencia está en la generación de “scritps” o “recetas” que permiten aplicarlo en un solo paso a otros conjuntos de datos similares. Es decir, se trata de una solución “exportable”. También es fácil encontrar
tutoriales e
información sobre la herramienta, pero, por supuesto, en mucha menor medida que sobre Excel. Por si acaso te perdiste los primeros post de esta serie, aquí tienes los enlace:
Tus datos más limpios, casi sin frotar, Tus datos más limpios (II): Excel Waterproof.