Hadoop por dentro (II): HDFS y MapReduce
- El Sistema de Ficheros distribuido Hadoop (HDFS), para la parte de almacenamiento
- El Servidor MapReduce, para la gestión distribuida del procesamiento

HDFS (Hadoop Distributed File System)

- Un cluster de 1100 máquinas, con 8800 nodos y cerca de 12 PB de almacenamiento.
- Un segundo cluster de 300 máquinas con 2400 nodos y cerca de 3PB de de almacenamiento.
Mapreduce
-
Map – “Divide y vencerás”: divide la tarea de entrada en subtareas y las ejecuta entre distintos nodos.
-
Reduce – “ Combina y reduce la cardinalidad”: la función “Reduce” recoge las repuestas a las sub-tareas en cada subnodo y las combina y agrupa para obtener la respuesta final.

- aumentaron los costes y los tiempos de respuesta (peores rendimientos de red).
- aumentaba el riesgo de corrupción e inconsistencia de los datos.
- aumentaba el riego de saturar el nodo maestro etc...

-
Un Gestor de recursos global: Global ResourceManager.
-
Un programador/Monitor de aplicaciones (por aplicación): ApplicationMaster (AM).

- Hadoop por dentro (II): HDFS y MapReduce
- El Ecosistema Hadoop (III): Una gran diversidad "biológica"