Hadoop por dentro (II): HDFS y MapReduce
- El Sistema de Ficheros distribuido Hadoop (HDFS), para la parte de almacenamiento
- El Servidor MapReduce, para la gestión distribuida del procesamiento
Figura 1: Ejemplo de cluster Hadoop con dos nodos.(Fuente)
HDFS (Hadoop Distributed File System)
Figura 2: Lectura y Escritura en HDFS.
- Un cluster de 1100 máquinas, con 8800 nodos y cerca de 12 PB de almacenamiento.
- Un segundo cluster de 300 máquinas con 2400 nodos y cerca de 3PB de de almacenamiento.
Mapreduce
-
Map – “Divide y vencerás”: divide la tarea de entrada en subtareas y las ejecuta entre distintos nodos.
-
Reduce – “ Combina y reduce la cardinalidad”: la función “Reduce” recoge las repuestas a las sub-tareas en cada subnodo y las combina y agrupa para obtener la respuesta final.
Figura 3: Filosofía MapReduce. Un ejemplo típico de uso
- aumentaron los costes y los tiempos de respuesta (peores rendimientos de red).
- aumentaba el riesgo de corrupción e inconsistencia de los datos.
- aumentaba el riego de saturar el nodo maestro etc...
Figura 6: Cluster Hadoop de 3 nodos.
-
Un Gestor de recursos global: Global ResourceManager.
-
Un programador/Monitor de aplicaciones (por aplicación): ApplicationMaster (AM).
Figura 7: Comparativa de versiones de Hadoop.
- Hadoop por dentro (II): HDFS y MapReduce
- El Ecosistema Hadoop (III): Una gran diversidad "biológica"
Cloud Híbrida
Ciberseguridad & NaaS
AI & Data
IoT y Conectividad
Business Applications
Intelligent Workplace
Consultoría y Servicios Profesionales
Pequeña y Mediana Empresa
Sanidad y Social
Industria
Retail
Turismo y Ocio
Transporte y Logística
Energía y Utilities
Banca y Finanzas
Deporte
Ciudades Inteligentes


