Telefonica Tech · Blog · Javier Carro Calabor

Javier Carro Calabor

Telecommunication Engineer at UVA, and certified in PMP and Scrum Master. In #BD4SG we look for the benefits of technology to cover every angle.

AI & Data

Usando datos para gestionar situaciones de emergencia

Escrito por Carmen Rodríguez, becaria en LUCA, y Javier Carro, Data Scientist en LUCA. Área Big Data for Social Good. ¿Qué pensarías si te dijese que los datos pueden ayudar a salvar vidas? ¿Y si pudiésemos ayudar a minimizar las consecuencias de un desastre natural? En el área Big Data for Social Good de LUCA tenemos una línea de investigación centrada en el análisis de datos de desastres naturales (terremotos, movimientos de tierra, inundaciones, etc.) con el objetivo de optimizar su gestión. Puedes ver un ejemplo en este post sobre nuestra colaboración con UNICEF. La repercusión de este tipo de eventos se ve reflejada en nuestro comportamiento en las comunicaciones. Llamamos para pedir ayuda, a nuestros familiares y amigos, para comprobar que están a salvo, o para avisar de que estamos bien. Esas reacciones humanas se reflejan en los datos de las redes de telefonía móvil y, convenientemente anonimizados y agregados, pueden ser utilizados para ayudar en la gestión de estos eventos. En esta ocasión hemos hecho un estudio de impacto del temporal que tuvo lugar en la zona del Golfo de San Jorge de Argentina entre los días 29 de marzo y 7 de abril de 2017 y del que se hicieron eco varias noticias a lo largo de varios días. Comodoro Rivadavia y Rada Tilly son dos municipios argentinos situados entre las cuencas de varios arroyos y cuencas de drenaje. El temporal de lluvias dejó unos valores de 232 mm el día 29, cuando la media de precipitaciones del mes de marzo en Comodoro Rivadavia se sitúa en 20,7 mm. [caption id="attachment_37449" align="aligncenter" ] Figura 2: condiciones meteorológicas en Comodoro Rivadavia en torno a las fechas del temporal estudiado.[/caption] Estas intensas lluvias, junto con el desbordamiento de los ríos que desembocan en el océano Atlántico, provocan grandes inundaciones en la ciudad, que dejan anegadas las calles y provocan la evacuación de miles de personas. ¿Qué nos dicen los datos de llamadas? Para llevar a cabo este análisis hemos utilizado los registros de llamadas realizadas por hora en diferentes municipios. En función de la variación de llamadas causada por el desastre los hemos catalogado en tres zonas: afectación alta (Comodoro Rivadavia y Rada Tilly) en color rojo, afectación media (Caleta Olivia) en amarillo y afectación baja (Camarones, Sarmiento, Las Heras y Pico truncado) en azul. En la siguiente figura hemos representado el número de llamadas por hora para cada una de las localidades. Podemos apreciar a simple vista que para las líneas rojas, que representan la "zona cero" de la catástrofe, hay un pico de llamadas el día 29 de marzo a las 18:00. [caption id="attachment_37452" align="aligncenter" ] Figura 3: llamadas cursadas por hora en cada localidad en torno a las fechas del temporal estudiado. Las escalas son diferentes para cada localidad para que se puedan observar mejor los patrones horarios.[/caption] Vemos también un aumento de llamadas en las localidades de Sarmiento y Pico Truncado, que nos indica que la repercusión del evento llega también a zonas más alejadas geográficamente. Para profundizar un poco más, calculamos la desviación de las llamadas respecto de su patrón habitual por hora y día de la semana. Normalizamos esta diferencia y representamos el siguiente gráfico en el que los picos nos indican una desviación muy grande respecto de lo que se esperaría a esa hora ese día. En este caso sí podemos ver, en la Figura 4, un pico el día 29 en todas las localidades, en mayor o menor medida. Figura 4: desviaciones de las llamadas realizadas respecto a los patrones horarios habituales para cada localidad. La desviación está expresada en número de desviaciones estándar respecto de la media. De nuevo ténganse en cuenta los cambios de escala, que se han hecho para poder observar mejor cómo destacan los diferentes picos, pero muestran que los niveles de impacto son diferentes. En este tipo de catástrofes, un desbordamiento debido a las grandes lluvias o un terremoto, la reacción es bastante inmediata. El día 28 los valores de llamadas se ajustan a las medias habituales, pero el 29 se produce una desviación brusca a una hora concreta, un gran pico de llamadas en el momento del desastre. Los días posteriores, la situación va normalizándose hasta alcanzar de nuevo valores normales de llamadas. En el siguiente mapa podemos ver esta evolución temporal. Los colores representan el grado de desviación del patrón de llamadas, que van desde el verde claro para las menores desviaciones hasta el rojo para las más grandes, pasando por amarillo y naranja. Apreciamos el cambio brusco el día 29 de marzo y como la situación se estabiliza a lo largo de los días. Figura 5: evolución temporal de las desviaciones en cada localidad. Los colores verdes representan las menores desviaciones respecto al patrón habitual y, los rojos, las más grandes. Podemos profundizar aún más a nivel geográfico, analizando el comportamiento en cada antena y pudiendo discriminar así la afectación por zonas dentro del mismo municipio. En la Figura 6 representamos los valores de llamadas para una muestra de antenas de distintas localidades, en las que vemos cómo unas antenas registran un pico mayor que otras o cómo algunas dejan de prestar servicio, probablemente debido a problemas técnicos en la red derivados precisamente de las condiciones meteorológicas. Figura 6: patrones de llamadas horarios para las antenas de cada municipio. Como podemos ver en la figura 7, si analizamos los datos de llamadas (línea verde) respecto a su patrón habitual (línea rosa) podemos comprobar las diferencias entre las desviaciones de antenas del mismo municipio, . Además, vemos la diferencia entre la repercusión en las distintas zonas de afectación. Las gráficas de la izquierda corresponden a antenas de Comodoro, que presentan un pico de llamadas el día 29 alrededor de las 6 de la tarde. Sin embargo, para las gráficas de la derecha, que son de antenas situadas en el municipio de Las Heras, la influencia del desastre se ve reflejada en las llamadas de los días posteriores. Figura 7: comparativa entre los valores reales de llamadas por hora y los patrones habituales para dos de los municipios del estudio. Izquierda: Comodoro Rivadavia, perteneciente a la zona de afectación alta. Derecha: Las Heras, de afectación baja. Movilidad Gracias a nuestra red de telefonía, no sólo podemos observar el comportamiento en cuanto a tráfico de llamadas, sino también el comportamiento anonimizado y agregado en cuanto a movilidad. Así, al igual que en este post o en este otro, podemos estudiar la movilidad en estos casos de desastres naturales. Hemos creado una matriz origen-destino con todas las provincias de Argentina y especialmente con las localidades que hemos visto hasta ahora. También hemos seguido el mismo método para el cálculo de desviaciones. A continuación aplicamos un filtro que deje visibles sólo las localidades y provincias del país que tienen mayor desviación en movilidad en las fechas en torno al desastre. El resultado se muestra en Figura 8, donde vemos los perfiles de movilidad entre las diferentes combinaciones origen-destino más afectadas según se van seleccionando localidades o provincias en los mapas. Observamos un claro pico negativo de desviación en la movilidad el día 29 de marzo entre las localidades afectadas y su entorno. Las personas se mueven menos, están aisladas en la zona del desastre o no viajan desde allí o hacia allí debido a las condiciones meteorológicas o los efectos del temporal. Figura 8: desviaciones de movilidad para diferentes combinaciones origen-destino filtrando localidades con mayor impacto en las fechas de interés. Observamos también con claridad un segundo pico de descenso de movilidad en todas las combinaciones origen-destino, y es que el día 7 de abril se produjeron de nuevo grandes tormentas y precipitaciones en las mismas zonas de Argentina, tal y como comentamos arriba al referirnos al histórico meteorológico. Conclusiones En definitiva, los desastres naturales afectan a nuestro comportamiento y dejamos un rastro de datos que, convenientemente anonimizados y agregados, podemos utilizar para reaccionar ante estos eventos. La creación de alertas para los servicios de emergencia es un posible caso de uso implementable a partir de estos datos, de manera que se puedan dirigir los esfuerzos y recursos a las zonas más afectadas, o quizá anticiparse a la llegada de los efectos del temporal. Otra posibilidad es desarrollar una aplicación de avisos para los propios usuarios de la red de telefonía móvil, que alertase de un peligro inminente en la zona en la que se encuentran y aconsejase medidas de precaución. Obviamente, es importante discernir si los eventos que registramos de esta forma corresponden a un desastre natural o están motivados por otros tipos de actos multitudinario como conciertos o unas olimpiadas, por ejemplo. Otras fuentes y formas de análisis, como la propia información de estado y rendimiento de los elementos de red, Twitter con procesamiento de lenguaje o análisis de sentimiento, otros estudios meteorológicos, topográficos y geomorfológicos, etc. pueden completar este tipo de estudios. Aún así, con este análisis seguimos comprobando el gran potencial que estos datos tienen en este tipo de servicios dedicados al bien social. Datos que nos ayuden a mejorar, a ayudar y a prevenir en la medida de lo posible los efectos de estas catástrofes.

11 de abril de 2018

AI & Data

¿Dónde van los madrileños en el puente de Diciembre?

Muchos aprovechamos el puente de diciembre para descansar, hacer turismo o visitar nuestros lugares de origen. En esta ocasión, a modo de entrega adicional a nuestros artículos anteriores sobre movilidad ( commuting y contaminación), os proponemos un breve estudio sobre nuestras costumbres en el puente de diciembre. Nos hemos centrado de nuevo en Madrid por ser una fuente de movilidad que afecta a toda España, por lo que muchos nos veremos representados. Pero esta vez también descubriremos aspectos interesantes sobre Toledo. Figura 1: "Los datos se van de puente. ¿Dónde van los madrileños en el puente de Diciembre?" ¿Dónde van los madrileños en el puente de Diciembre? Hemos vuelto a utilizar datos de SmartSteps centrándonos en el concepto dwell en vez de en los POIs (puntos de interés) home y work que os presentamos en los posts anteriores. Para entender este concepto recordamos que SmartSteps extrae la información a partir de dos tipos de datos que se generan en la red móvil: eventos activos (llamadas, SMSs, …) y eventos pasivos (los que realiza la propia red por su necesidad intrínseca de gestionar los móviles conectados a ella). Si te interesa conocer más sobre los datos que recoge SmartSteps te remitimos a este artículo que, sobre todo en su primera parte, lo explica de forma muy clara. A partir de estos dos tipos de eventos se pueden inferir lugares donde realmente hemos estado un tiempo significativo ( dwells) diferenciándolos de lugares por donde simplemente hemos pasado. Antes de continuar insistimos en los principios de agregación y anonimización que rigen siempre la actividad y el uso de los datos de SmartSteps. Es decir, observamos y analizamos datos de grupos homogéneos, nunca de personas de manera individual. Lo hemos explicado formalmente en los posts anteriores y ahora lo resumimos de forma sencilla: si al leer este artículo y ver sus gráficas te sientes aludido, no te alarmes, somos muchos los que hacemos algo similar y por eso aparecemos como significativos. Principales destinos de los madrileños en el puente de diciembre El primer paso es similar a los que hicimos en el post sobre commuting: un mapa de calor (Figura 2) que representa la distribución de los destinos elegidos por los que habitualmente viven en Madrid. Figura 2: Distribución de los destinos elegidos por los habitantes de Madrid en el puente de diciembre. El puente suele ser muy largo y muchos no lo pasamos entero en un único lugar, así que para obtener este gráfico hemos seleccionado como destinos los lugares en los que la gente ha pasado más horas dentro del puente (dwells más largos). Podemos fijarnos en varios tipos de destinos: Destinos muy destacados: Barcelona, Toledo. Destinos destacados: Valencia, Alicante, Sevilla, Málaga, Cádiz, Guadalajara. En el resto podemos destacar provincias alrededor de Madrid y unas cuantas provincias costeras alrededor de toda España. Este primer acercamiento, aparentemente sencillo, nos empieza a sugerir preguntas que nos gustaría responder profundizando más en los datos. Como no hay tiempo para todo nos quedamos con una de las que más nos ha llamado la atención: Toledo. Si vives en Madrid seguro que conoces a muchos con familia en Toledo, pero en el mapa destaca realmente mucho. A priori Guadalajara podría haber tenido un comportamiento similar, ya que tienen poblaciones casi idénticas que podrían “tirar” de los habitantes de Madrid. Realmente Madrid y Toledo están muy “unidas”. ¿Familia? ¿Turismo (El Greco, gastronomía…)? Toledo, ¿simple casualidad? Para continuar nos hemos planteado si este comportamiento fue puntual o es recurrente. Así que hemos agregado los datos de los que fueron a Toledo en el puente para ver sus destinos más habituales en otros 9 fines de semana del año. El resultado lo vemos reflejado en la Figura 3. Figura 3: Diagrama sunburst con los 100 grupos de provincias destino más elegidos por los “madrileños-toledanos” en los 9 fines de semana analizados. Para esta visualización hemos reutilizado uno de los ejemplos de uso de la librería D3.js y hemos representado los grupos de destinos elegidos por los “madrileños-toledanos”. Se trata de una librería JavaScript que es de gran ayuda para hacer representaciones gráficas de datos. Su potencial es muy grande ya que, además de poder usarla directamente para páginas web, puedes extenderla acorde a tus necesidades, y también se integra con la mayoría de herramientas de visualización de datos tanto propietarias como abiertas. Para esta Figura 3, como las combinaciones de lugares de destino en esos 9 fines de semana son muy numerosas, nos hemos quedado con las 100 combinaciones más frecuentes. Así, podemos ver, de aquellos que fueron a Toledo en el puente, los porcentajes de gente que suelen quedarse únicamente en Madrid, los que siempre se van a Toledo, los que reparten sus fines de semana entre Madrid y Toledo, Madrid-Toledo-Alicante, Madrid-Toledo-Alicante-Valencia, etc. Lo podríamos resumir en estos grupos: Toledanos: Aproximadamente 1 de cada 3 ha vuelto a Toledo todos los 9 fines de semana del estudio, así que podemos decir que esta parte de los viajeros tienen lazos permanentes con Toledo. Aproximadamente 1 de cada 5 unas veces se quedan en Madrid y otras van a Toledo. Diríamos que también tienen lazos permanentes con Toledo, pero no lo visitan con tanta frecuencia. Madrileños: Aproximadamente 1 de cada 5 se ha quedado en Madrid todos los 9 fines de semana del estudio, así que está claro que estos fueron a Toledo como escapada ocasional. Madrileños turistas y Toledanos turistas: hay un grupo que se quedan casi siempre en Madrid pero hace visitas sobre todo a la Comunidad Valenciana. Y otro grupo, más pequeño, que casi siempre van a Toledo pero también visitan la Comunidad Valenciana. Incluso para los que normalmente alternan entre Madrid y Toledo, su tercera opción para viajar vuelve a ser sobre todo la Comunidad Valenciana. Pero, si nos fijamos bien, vemos que en seguida empiezan a aparecer destinos de lo más diverso. Queda claro el éxito de la Comunidad Valenciana. De ella, Alicante es el destino más elegido. En el gráfico izquierdo de la Figura 4 podemos ver el porcentaje global (considerando todos los grupos de destinos y no sólo los 100 primeros) que se lleva cada grupo de destinos y que confirma, por ejemplo, el grupo de "toledanos" explicado más arriba. En el gráfico derecho de la Figura 4 vemos cuántos madrileños han visitado la Comunidad Valenciana alguno de los 9 fines de semana, lo cual confirma de nuevo el éxito de esta comunidad. Figura 4: Izquierda, porcentaje de madrileños por destino. Derecha, porcentaje de madrileños que también fueron a la Comunidad Valenciana. En definitiva, este análisis empieza a poner de manifiesto las costumbres viajeras de los españoles en cuanto a frecuencia con la que se hacen diferentes tipos de escapadas de fin de semana, número de destinos diferentes a para esas escapadas. Cuanto más profundizamos, más nos gustaría saber sobre diversos aspectos que van surgiendo, pero el tiempo es limitado y tendremos que dejarlo para otra ocasión. Esperamos que este nuevo viaje por España os haya resultado interesante, e incluso que os haya despertado más preguntas que respuestas. Ya sabéis que para cualquier sugerencia, duda o propuesta podéis contactarnos siempre aquí. Para mantenerte al día con LUCA visita nuestra

19 de diciembre de 2016

Búsquedas recomendadas

Javier Carro Calabor

Descubre más sobre nosotros