Usos inverosímiles del Open Data: dónde aterrizar con tu paracaídas



Sacar los datos
- Enigma, un sitio alucinante que contiene más de 100.000 datasets acerca de gobiernos, empresas, universidades y organizaciones de diversos tipos. Puedes encontrar desde el registro de visitantes a la Casa Blanca hasta datos diarios de la temperatura registrada en las estaciones meteorológicas de todo el planeta durante los últimos 10 años o la ubicación de todas las cárceles de Estados Unidos.
- Twitter, para analizar de qué habla un tuitero en particular, qué opina gente de algún tema, o de qué se habla en algún sitio concreto del mundo. Si quieres entrenarte con algoritmos de text mining, éste es tu sitio. Yo lo he usado para este caso de uso.,
- Genderize permite determinar el género (masculino o femenino) de un nombre propio. Actualmente su base de datos contiene más de 215.000 nombres de 79 países y 89 idiomas distintos. Su versión gratuita permite hasta 1.000 consultas al día y el resultado de la búsqueda viene acompañado de medidas de certeza muy útiles. El siguiente ejemplo te puede ayudar a comprender para qué nos sirve esta información.
- UN Data reúne datos de 35 organismos dependientes de Naciones Unidas y está mantenido por el Departamento de Asuntos Económicos y Sociales de la propia Organización. Es una web perfecta para conocer un poco mejor el mundo en que vivimos.
- Wikipedia comparte estadísticas sobre el número de visitas a sus páginas. Con esos datos se puede medir el efecto colateral que tiene algún hecho relevante sobre la notoriedad de sus protagonistas. Por ejemplo, ¿tuvo impacto la aprobación de la Ley Turing en el número de visitas a la página de wikipedia de Alan Turing? La respuesta, aquí.
- Google, sobre el que hablaré en detalle a continuación.
Nuestro experimento de paracaidismo
- He elegido seis países: Brasil, Alemania, España, Gran Bretaña, Perú y Estados Unidos.
- Fijaremos el radio de búsqueda a 10 km por ser un equilibrio razonable entre distancia que puede recorrer un paracaidista y número de aterrizajes a simular, que serán 1.100 para cada país.
- Salud y belleza: salón de belleza, dentista, doctor, gimnasio, peluquería, salud, hospital, farmacia, fisioterapia y spa.
- Comida y bebida: panadería, bar, cafetería, tienda de conveniencia, alimentación, tienda de comestibles o supermercado, licorería, reparto de comida, comida para llevar, club nocturno y restaurante.
- Cultura y educación: acuario, galería de arte, librería, biblioteca, museo, escuela, universidad y zoo.
- Transporte: aeropuerto, estación de autobuses, venta de coches, alquiler de coches, gasolinera, estación de metro, parada de taxis y estación de tren.
- Alojamiento: sólo contiene el tipo del mismo nombre.
- Establecimiento: al igual que el anterior sólo contiene el tipo homónimo.
Los resultados
¿Qué probabilidad hay de encontrar algún lugar a 10 km en un aterrizaje azar? El siguiente gráfico lo muestra:
Ahora que sabemos qué opciones tenemos de aterrizar en un sitio no desértico, ¿cuántos sitios encontraríamos alrededor? Este gráfico muestra el número de sitios alrededor de un aterrizaje exitoso (es decir, descartando los aterrizajes sin sitios alrededor):
