A
Asset (Data Governance)
Cualquier recurso de la empresa necesario para la correcta provisión de servicios de la información. Es cualquier información o sistema relacionado con el tratamiento de la misma que tenga valor para la organización, pueden ser procesos de negocio, datos, aplicaciones, equipos informáticos, personal, soportes de información, redes, equipamiento auxiliar o instalaciones. Es susceptible de ser atacado deliberada o accidentalmente con consecuencias para la organización.
Database Administrator (DBA)
Es el responsable del diseño (físico y lógico), gestión y administración de las bases de datos. Su función es garantizar la Seguridad, optimización, monitorización, resolución de problemas, y análisis/previsión capacidades presentes y futuras. Es un rol muy técnico para el que son necesarios profundos conocimientos de lenguaje SQL y también, cada día más, de bases de datos noSQL. Asimismo, pueden ser necesarias habilidades de gestión dirigidas al diseño de políticas y procedimientos de uso, gestión, mantenimiento y seguridad de las bases de datos. 
 
En definitiva, su función es asegurarse de que “la máquina, funciona”.
IA Agent
Un agente de inteligencia artificial (IA) es un sistema autónomo capaz de percibir su entorno, procesar información y ejecutar acciones orientadas a alcanzar un objetivo. A diferencia de una aplicación tradicional, un agente de IA no se limita a ejecutar instrucciones predefinidas, sino que aprende de la experiencia, toma decisiones adaptativas y puede interactuar con otros agentes o personas.
Algorithm
Consiste en una serie definida de pasos para realizar determinada tarea con los datos. Al igual que ocurre con las estructuras de datos, las personas que estudian ciencias de la computación, estudian diferentes algoritmos para ver cuáles son más apropiados para realizar determinadas tareas.
Principal component analysis (PCA)
Es un algoritmo de aprendizaje automático que busca reducir la dimensionalidad de un conjunto de variables observadas a un conjunto de variables sin correlación lineal, llamadas componentes principales. Para ello calcula la dirección con la mayor varianza y la define como componente principal. Se emplea sobre todo en análisis exploratorio de datos y para construir modelos predictivos.
Exploratory data analysis (EDA)
La fase de análisis exploratorio, dentro del proceso de trabajo en ciencia de datos, tiene como objetivo extraer Insights (resultados) de los datos a través de técnicas de visualización y análisis estadístico.
Data Analyst
Es el encargado de analizar mediante técnicas estadísticas (entre otras) los datos históricos de la organización para poder tomar decisiones futuras mejor informadas (desde cómo evitar la fuga de clientes, a la definición de estrategias de precios).  
 
Su función es analizar datos históricos para detectar patrones de comportamiento o tendencias. (Análisis descriptivo y/o predictivo). 
 
Para este rol son fundamentales los conocimientos sobre estadística, unidos a habilidades de pensamiento crítico. También son de gran importancia las habilidades de comunicación.  
 
 
En definitiva, su función es “Comprender lo que ha sucedido en el pasado para tomar mejores decisiones en el futuro”.
Analytics
Actualmente vivimos en un mundo hiperconectado. Cada vez más dispositivos de nuestro alrededor están sensorizados y aportan datos de valor para los usuarios o empresas. Estos datos por sí solos no tienen ningún valor añadido. El valor llega cuando los cruzas, analizas y consigues mejorar la producción, ahorrar costes y ser más eficiente mediante pautas de comportamiento. La analítica de los datos es primordial para una transformación digital de una empresa.
Business Analytics
Consiste en la metodología práctica que usa una organización para extraer conocimiento (Insights) de la exploración de sus datos. Esta metodología se basa en el análisis estadístico de los datos.
Descriptive Analytics
Es la técnica analítica más básica, y todavía hoy, la usada por el 90% de las empresas. Este tipo de analítica responde a la pregunta ¿Qué ha pasado? - Analiza datos históricos y datos recogidos en tiempo real para generar Insights sobre cómo han funcionado estrategias de negocio en el pasado, por ejemplo, una campaña de marketing.
Predictive analytics
Consiste en el análisis de datos históricos del negocio con el objeto de predecir comportamientos futuros que ayuden a una mejor planificación. Para ello se usan técnicas de modelado predictivo, entre otras. Estas técnicas se basan en algoritmos estadísticos y de aprendizaje automático.
Prescriptive analytics
Consiste en el análisis de datos históricos del negocio con el objetivo, no sólo de predecir comportamientos futuros, sino de valorar sus causas, permitiendo recomendar o “prescribir” qué acciones de deben llevar a cabo para aprovechar una oportunidad o mitigar un riesgo.
Self-supervised learning
Aprendizaje Auto-supervisado ( Self-supervised learning) es un término que se refiere a un tipo de aprendizaje no supervisado enmarcado dentro de un problema de aprendizaje supervisado. Es una técnica de aprendizaje relativamente reciente donde los datos de entrenamiento se etiquetan de forma autónoma.
Machine learning
Es un conjunto de técnicas que trabajan con grandes cantidades de datos de forma inteligente (desarrollando algoritmos), para obtener valiosos Insights en que basar iniciativas o estrategias de negocio. En estas técnicas, los algoritmos aprenden por sí mismos, sin ser programados de forma explícita.
Deep learning
Normalmente, se trata de un algoritmo multicapa que va identificando detalles en sucesivos niveles de abstracción. Por ejemplo, el primer nivel puede identificar algunas líneas, el siguiente nivel identifica formas como combinaciones de líneas, y el siguiente identifica objetos como combinaciones de formas. Como puede imaginarse con este ejemplo, el aprendizaje profundo se usa mucho para clasificación de imágenes. 
 
El Aprendizaje Profundo se asocia con un algoritmo de machine-Learning, las redes neuronales (de ahí la identificación gradual por capas). Este tipo de algoritmos son muy flexibles y permiten modelar muchas respuestas simultaneas, pero también requieren una ingente cantidad de datos.
Supervised learning
En el aprendizaje supervisado, los algoritmos trabajan con datos “etiquetados” (labeled data), intentado encontrar una función que, dadas las variables de entrada (input data), les asigne la etiqueta de salida adecuada. El algoritmo se entrena con un “histórico” de datos y así “aprende” a asignar la etiqueta de salida adecuada a un nuevo valor, es decir, predice el valor da salida. 
 
El aprendizaje supervisado se suele usar en problemas de clasificación, como identificación de dígitos, diagnósticos, o detección de fraude de identidad.
Unsupervised learning
El aprendizaje no supervisado tiene lugar cuando no se dispone de datos “etiquetados” para el entrenamiento. Sólo conocemos los datos de entrada, pero no existen datos de salida que correspondan a un determinado input. Por tanto, sólo podemos describir la estructura de los datos, para intentar encontrar algún tipo de organización que simplifique el análisis. Por ello, tienen un carácter exploratorio.
Reinforcement learning
Se basan en los estudios sobre cómo fomentar el aprendizaje en humanos y ratas basándose en recompensas y castigos. El algoritmo aprende observando el mundo que le rodea. Su información de entrada es el feedback o retroalimentación que obtiene del mundo exterior como respuesta a sus acciones. Por lo tanto, el sistema aprende a base de ensayo-error.
Transfer learning
Se trata de un método muy utilizado en visión artificial porque permite construir modelos precisos ahorrando una gran cantidad de tiempo. En lugar de comenzar el proceso de aprendizaje desde cero, se comienza haciendo uso de patrones o modelos pre-entrenados que se han aprendido al resolver un problema diferente.
Decision trees
Un árbol de decisión es un tipo de algoritmo de aprendizaje supervisado (aquellos que tienen una variable objetivo predefinida) que se suele usar en problemas de clasificación. Funciona tanto para variables de entrada/salida continuas y categóricas. En esta técnica, se divide la población (o muestra) en dos conjuntos homogéneos (o subpoblaciones) basados en el criterio diferenciador de las variables de entrada que resulte más significativo.
AUC (Area Under the ROC Curve)
Se trata de una métrica de evaluación que considera todos los umbrales de clasificación posibles. El gráfico ROC también es conocido como la representación de sensibilidad frente a (1-especificidad). La diagonal divide el espacio ROC. Los puntos por encima de la diagonal representan los buenos resultados de clasificación (mejor que el azar), puntos por debajo de la línea de los resultados pobres (peor que al azar).
Enterprise Data Architect
Es el responsable de crear la infraestructura de captura, y acceso a los datos. Define cómo se mueven los datos. 
 
Su función principal es el diseño del entorno de uso de los datos. Cómo se almacenan, cómo se accede a ellos y cómo son compartidos/utilizados por distintos departamentos, sistemas o aplicaciones, en línea con la estrategia empresarial. 
 
Es un rol estratégico, para el cual se requiere una visión del ciclo de vida completo. Por tanto, debe considerar aspectos de modelado de datos, diseño de bases de datos, desarrollo SQL, y gestión de proyectos de software. También es importante conocer y comprender cómo las tecnologías tradicionales y las emergentes pueden contribuir al logro de los objetivos empresariales. 
 
En definitiva, su función es asegurarse de que “definir la visión global”.
Zero Trust Architecture (ZTA)
Modelo de seguridad que asume que ninguna entidad (usuario, dispositivo o red) es confiable por defecto, incluso si está dentro de la red corporativa. Requiere verificación constante de identidad y permisos para acceder a recursos críticos.
B
Naive Bayes classifier
Se trata de un grupo de algoritmos de clasificación basados en el Teorema de Bayes. No es un único algoritmo, sino una familia de ellos que comparten el principio común de que cualquier variable que clasifiquemos es independiente del valor de las otras variables. Por ejemplo, podemos considerar que una fruta es una manzana si es roja, redonda y de un tamaño determinado. Un clasificador Naive Bayes considera que cada una de estas características (roja, redonda, diámetro aproximado) contribuye de forma independiente a la probabilidad de que la fruta sea una manzana, independientemente de las correlaciones entre características. Sin embargo, las características no siempre son independientes, y por eso estos métodos se llaman “naive”. Sin embargo, esta simplificación permite desarrollar implementaciones de estos algoritmos fácilmente escalables.
Bayesian Statistics
Es un procedimiento matemático que aplica probabilidad a problemas estadísticos. Proporciona herramientas que permiten actualizar las predicciones con la evidencia de datos nuevos. Se diferencia de la aproximación clásica, basada en la frecuencia, y en su lugar usa probabilidad bayesiana para resumir la evidencia.
Bayes Theorem
También conocido como Regla de Bayes, en honor del matemático y ministro presbiteriano del siglo XVIII Thomas Bayes. El teorema de Bayes se usa para calcular probabilidad condicionada. La probabilidad condicionada consiste en la probabilidad de que ocurra el evento “B” cuando un evento relacionado “A” ha ocurrido (P(B|A)).
Big Data
En general, se refiere a la capacidad de trabajar con volúmenes de datos que anteriormente eran inmanejables, tanto por su tamaño, velocidad y variedad (“Las 3 “V”s). Uno de los factores que ha permitido esta evolución ha sido la facilidad de distribución del almacenamiento y procesamiento de los datos a través de redes basadas en hardware básico (“commodity”), usando tecnologías Hadoop, en lugar de necesitar grandes y potentes computadoras dedicadas. Pero no es el volumen de datos lo importante. Es cómo las empresas usan estos datos para generar conocimiento (“insights”). Las empresas usan distintas técnicas, herramientas y recursos para dar sentido a estos datos y basar en ellos estrategias de negocio más eficientes.
Blockchain
Blockchain es un conjunto de tecnologías que permiten la transferencia de un valor o activo de un lugar a otro, sin intervención de terceros. En este modelo, la autenticidad no la verifica un tercero sino una red de nodos (computadores conectados a la red). Por ello, las transferencias de activos se realizan a través de un consenso y almacenando la información de manera transparente.
Random forest
Se trata de un algoritmo usado para tareas de regresión o clasificación que se basa en una combinación de árboles predictores. “Para clasificar un nuevo objeto a partir de un vector de entrada, se alimenta cada uno de los árboles del bosque con ese vector. Cada árbol ofrece como resultado una clasificación, y decimos que “vota” por ese resultado. El bosque elige la clasificación que tiene más votos entre todos los árboles del bosque. El término “random forest” es una marca registrada por sus autores.
Bot
Bot, chatbot, talkbot, chatterbot, asistente conversacional, asistente virtual etc no son más que distintas formas de ponerle nombre a programas informáticos que se comunican con nosotros como si fueran humanos. Los bots pueden hacer muchas tareas, algunas buenas, como comprar entradas para un concierto, desbloquear la cuenta de un usuario, u ofrecer opciones para reservar una casa de vacaciones en unas fechas concretas; y otras no tanto, como realizar ciberataques, o provocar una catástrofe financiera realizando operaciones bursátiles a alta velocidad. 
 
Los bots (diminutivo de “robot”) pueden estar diseñados en cualquier lenguaje de programación y funcionar como cliente, como servidor, como agente móvil etc. Cuando se especializan en una función específica se les suele llamar “Sistemas Expertos”.
C
Hidden layer
En las redes neuronales, una capa oculta es una capa sintética entre la capa de entrada (la capa de características) y la capa de salida (la capa de predicción). En una red neuronal puede haber una o más capas ocultas.
Feature
Es el término con el que se denomina en el área del aprendizaje automático, una unidad de información sobre algo. Si almacenas la edad, los ingresos anuales, y el peso de un conjunto de personas, estás guardando tres características sobre ellos. En el mundo IT, en lugar de característica, se suelen llamar propiedad, atributo o campo. 
 
El proceso de 
selección de características consiste en elegir cuáles de ellas tienen mayor relevancia sobre la capacidad predictiva del modelo estadístico, descartando las que tengan menor influencia. Esto puede hacerse filtrando las características menos útiles, o combinando varias para crear una característica nueva.
Analyst firms
Las casas de Analistas son clave en nuestro sector. Son expertos en diferentes materias tecnológicas y son creadores de opinión. Tienen gran influencia en los bancos de inversión, actúan como reguladores y como proveedores Tecnologías de la Información y la Comunicación (TIC). Muchas de estas casas generan sus propios estudios donde posicionan a las Telco en diferentes aspectos y, por ello, llegan a intervenir en las decisiones de compra de los clientes en el segmento empresarial. Son como un medidor de calidad de las empresas.
Chatbot
Un chatbot es un bot (Ver bot) o asistente virtual que usa un chat como interfaz de comunicación con los humanos.
Chi-square test
Es un método estadístico que se usa para probar si una clasificación de datos puede ser debida al azar o a alguna ley subyacente (Wordpanda). El test chi-cuadrado es una técnica de análisis que se usa para estimar si dos variables están correlacionadas en una tabulación cruzada.
Cibersecurity
El despliegue de millones de dispositivos hiperconectados, heterogéneos y a escala muy diversa se traduce en un claro desafío de seguridad. La ciberseguridad se encarga de defender todas estas interconexiones entre dispositivos para evitar ciberataques maliciosos que puedan recoger información y/o datos personales de forma ilegal.
Data Science
Es una combinación de análisis de datos, desarrollo de algoritmos, estadística e ingeniería de software para resolver problemas analíticos. Su principal objetivo es usar los datos para obtener valor de negocio.
Data Scientist
Es el encargado de realizar un  
análisis prescriptivo del histórico de datos empresariales, de forma que no sólo puede anticipar qué va a pasar en el futuro y cuándo, sino también dar una razón del porqué. De esta forma podrá sugerir qué decisiones habrá que tomar para sacar partido de una oportunidad de negocio futura o mitigar un posible riesgo, mostrando la implicación de cada opción sobre el resultado. 
 
Su función es construir y aplicar modelos de Machine Learning capaces de seguir aprendiendo y mejorando su capacidad predictiva conforme va aumentando el volumen de datos recolectados. 
 
Para este rol son necesarios conocimientos avanzados de matemáticas en general (y de estadística en particular), conocimientos de Machine Learning, conocimientos de programación en SQL, Phyton, R o Scala.  En ocasiones, el Analista de Datos es considerado un Científico de Datos “en formación”. Por ello, la frontera entre las tareas y Funciones de uno y otro rol a veces no son tan claras. 
 
En definitiva, su función es “Modelar el futuro”.
Smart Cities
Una Ciudad Inteligente o Smart City es un escenario en el que se utiliza la tecnología con el fin de mejorar las diferentes infraestructuras para los ciudadanos. Se trata de un espacio con millones de dispositivos y soluciones IoT conectados cuyo principal desafío es cómo gestionar de manera útil y eficiente el enorme volumen de datos en tiempo real y de manera integrada.
Binary Class
Las variables binarias son aquellas que pueden tener únicamente dos valores. Por ejemplo, una variable “¿Fumador?” puede tener el valor “Si” o “No”.
Classification
Es un método de aprendizaje supervisado donde la variable de salida es categórica, como “Masculino”, “Femenino”, o “Si”, “No”. Por ejemplo, decidir si un mensaje de correo es no deseado (spam), o analizar películas para clasificarlas por género, son tareas típicas que resuelve un algoritmo de clasificación. Algunos de estos algoritmos son: regresión logística, árbol de decisión, Support Vector Machine etc.
Cloud
Es la prestación de servicios alojados a través de Internet que permite a las empresas o individuos consumir recursos informáticos como una utilidad en cualquier lugar, en vez de tener que construir y mantener infraestructuras de computación en tu casa o tus oficinas. Tener tus documentos en la nube te permite poder acceder a ellos desde cualquier sitio, dispositivo y hora y poder prescindir del dispositivo físico (por ejemplo un ordenador).
Cloud Hosting
Servicio que permite alojar sitios web o aplicaciones en múltiples servidores virtuales interconectados en la nube, ofreciendo alta disponibilidad, escalabilidad y seguridad superior al hosting tradicional basado en un único servidor.
Autonomous vehicle
Un coche conectado es una experiencia de conducción de vehículo inteligente que proporciona información en tiempo real sobre el funcionamiento del vehículo y su uso para que los clientes pueden tomar decisiones más eficientes. Se integra en el día a día del usuario que permanece conectado mientras conduce y le permite acceder a la información a través de una aplicación móvil donde se reciben los datos recogidos por el dispositivo conectado al coche.
Coefficient
Se trata de un número o símbolo algebraico prefijado como multiplicador de una variable o cantidad desconocida. Al representar gráficamente una ecuación como y=3X+4, el coeficiente de “x”, en este caso, “3”, determina la pendiente de la recta. En estadística se suelen mencionar determinados coeficientes como el coeficiente de correlación, el coeficiente de Cramer, o el coeficiente de Gini.
Edge Computing
Se trata de un nuevo paradigma de computación cuyo enfoque acerca el procesamiento y el almacenamiento de datos hasta los dispositivos que los generan, eliminando la dependencia de servidores en el cloud o en data centers ubicados a miles de kilómetros de distancia.
Serverless computing
La computación sin servidor es un modelo de servicio en la nube en el que el propio proveedor gestiona automáticamente toda la infraestructura de servidores (asignándolos, escalándolos y manteniéndolos).
El usuario solo debe subir y ejecutar su código, sin preocuparse por aprovisionar o administrar servidores físicos o virtuales.
Confidentiality (Data Governance)
Garantizar que la información es accesible sólo para aquellos autorizados a tener acceso. Propiedad que debe cumplir la información contenida en un sistema de información por la cual, dicha información únicamente esta accesible para ser consultada por las personas que así se encuentran autorizadas.
Shell
Cuando se accede al Sistema operativo desde la línea de comandos estamos usando la consola. Además de los lenguajes de script como Perl y Python, es habitual el uso de herramientas basadas en Linux como grep, diff, splitt, comm, head and tail para realizar tareas de preparación-depuración de datos desde la consola.
Data Controller
La Organización que recoge los datos (a efectos RGDP)
D
Holdout data
Se trata de ejemplos que, de forma intencionada, (son “retenidos”) no se usan durante el entrenamiento. Los conjuntos de datos de validación y datos de test, son ejemplos de datos de prueba. Estos datos ayudan a evaluar la bondad de un modelo para generalizar sobre datos distintos de los usados para entrenarlo. La función de pérdida en los datos de prueba da una mejor estimación del valor sobre datos nuevos que la que da esta función sobre los datos de entrenamiento.
Structured data
Los datos estructurados son los datos típicos de la mayoría de bases de datos relacionales (RDBMS). Estas bases de datos se caracterizan por tener un esquema determinado que define cómo son las tablas en las que se almacenan los datos, qué tipo de campos tienen y cómo se relacionan entre ellas.
Unstructured data
Los datos no estructurados suponen un 80% del volumen de todos los datos generados, porcentaje que no deja de crecer. Estos datos pueden tener una estructura interna, pero no siguen ningún esquema o modelo de datos predefinido. Pueden ser datos de texto, o no textuales; haber sido generados por una máquina o por una persona; y almacenarse en una base de datos NoSQL, o directamente en un Datalake.
Semi-structured data
Datos semi-estructurados no tienen un esquema definido. No encajan en un formato de tablas/filas/columnas, sino que se organizan mediante etiquetas o “tags” que permiten agruparlos y crear jerarquías. También se les conoce como no relacionales o NoSQL.
Availability (Data Governance)
Propiedad que debe cumplir la información contenida en un sistema de información por la cual, dicha información se encuentre disponible para ser consultada o modificada cuando un usuario con los permisos adecuados así lo requiera.
Probability distribution
La distribución de probabilidad de una variable aleatoria discreta es el conjunto de todos los posibles valores que puede tener esa variable, junto con sus probabilidades de ocurrencia. 
 
Para variables discretas, las principales distribuciones de probabilidad son la binonial, la de Poisson y la hipergeométrica (esta última para eventos dependientes). Para variable continua, la distribución que se genera es la normal o gaussiana.
Drones
Un Drone es un vehículo aéreo no tripulado (VANT) y que vuela por control remoto. En la actualidad tiene diferentes funciones que aportan gran valor a la sociedad, por ejemplo: ayuda a la disminución de accidentes en carreteras, la detección de un fuego en campo abierto, ayuda al riego más eficaz en campos de cultivo…
E
Scalar
Una variable es de tipo escalar (por oposición a vectorial), cuando tiene un valor de magnitud pero no dirección en el espacio, como por ejemplo, el volumen o la temperatura.
Strata, stratified sampling
Consiste en dividir las muestras de población en grupos homegéneos o estratos y tomar una muestra aleatoria de cada uno de ellos. Strata es también una conferencia de O´Reilly sobre Big Data, Data Science y tecnologías relacionadas.
Precision and Recall
La 
exactitud (en inglés “Precision”) es una métrica para modelos de clasificación que responde a la siguiente pregunta: ¿De todos los resultados que el modelo da como positivos, cuántos son positivos de verdad?   
 
Representa lo cerca que está del valor verdadero el resultado del modelo o medición. También se conoce como Verdadero Positivo (o “True positive rate”).    
 
La 
Sensibilidad indica cuántas de las predicciones positivas son correctas.    
 
La exactitud y la sensibilidad nos están indicando la relevancia de los resultados. Por ejemplo, un algoritmo muy exacto, (P alto) nos dará muchos más resultados relevantes que irrelevantes, mientras que un algoritmo muy específico, (TP alto), será el que detecte la mayoría de resultados de interés (los primeros).
Customer Experience
La experiencia de usuario es el conjunto de factores y acciones que se llevan a cabo cuando el usuario interactúa con un producto o entorno. La percepción que la persona tenga en cada caso puede ser tanto positiva como negativa e influirá en el proceso de compra que pueda darse, o no. Esta percepción puede venir dada de muchos factores diferentes como el diseño, emociones, sentimientos, experiencia de marca, confiabilidad del producto, etc.
F
Activation function
Una función de activación es una función que transmite la información generada por la combinación lineal de los pesos y las entradas, es decir son la manera de transmitir la información por las conexiones de salida. Como lo que queremos es que la red sea capaz de resolver problemas cada vez más complejos, las funciones de activación generalmente harán que los modelos sean no lineales. Las más conocidas son la función escalón, la sigmoidal, las funciones ReLu, de tangente hiperbólica o de base radial (Gausianas, multicuadráticas, multicuadráticas inversas)
G
Github
GitHub es una compañía no lucrativa que ofrece un servicio de hosting de repositorios almacenados en la nube. Fue comprada por Microsoft en 2018. GitHub se basa en la colaboración entre usuarios favoreciendo que varios desarrolladores experimenten con código abierto y compartan sus distintos proyectos e ideas.
Data Governance
Conjunto de políticas y buenas prácticas que habilitan procesos que tienen como objetivo promocionar los datos como activo dentro de una organización para mejorar la toma de decisiones.
H
Hadoop
Hadoop es un proyecto opensource de la Apache Foundation, introducido en 2006, y desarrollado en Java cuyo objetivo es ofrecer un entorno de trabajo acorde con las necesidades del Big Data. Hadoop, por tanto, está diseñado para trabajar con volúmenes de datos masivos (Volumen), estructurados o no (Variedad), y procesarlos de forma segura y eficiente (Veracidad/Velocidad) , tanto en costes como en tiempo. 
 
Para ello, 
distribuye, tanto el almacenamiento de la información, como su procesamiento, entre muchos equipos trabajando de forma coordinada en “ 
clusters”, con uno o varios 
nodos maestros encargados de gestionar, por una parte, el sistema de ficheros distribuido donde los datos se almacenan en diferentes bloques redundados; y por otra, la coordinación y ejecución de los distintos jobs o tareas entre los miembros del cluster. Por ello es un sistema altamente escalable que además ofrece redundancia por software.
Heuristic
Un método heurístico consiste en buscar una solución práctica a un problema, aunque no sea óptima, pero suficiente para seguir avanzando o aprender de ello. 
 
“En algunas ciencias, manera de buscar la solución de un problema mediante métodos no rigurosos, como por tanteo, reglas empíricas, etc”. (RAE)
Hyperplane
Es un límite que separa el espacio en dos subespacios. Por ejemplo, una línea es un hiperplano en dos dimensiones, y un plano es un hiperplano en tres. En aprendizaje automático, un hiperplano es el límite que separa un espacio de muchas dimensiones. Los algoritmos Kernel Support Vector Machine usan hiperplanos para separar las clases positivas de las negativas en espacios multidimensionales.
Hosting
Servicio que permite almacenar y publicar sitios web, aplicaciones o correos electrónicos en servidores físicos o virtuales, haciéndolos accesibles en Internet. Incluye la gestión de recursos como espacio en disco, ancho de banda y direcciones IP.
I
Imputation
Imputación es una técnica que se usa cuando hay valores que faltan en el conjunto de datos. Se realiza por medio de técnicas estadísticas, como sustituir por la mediana o la moda, o por técnicas de aprendizaje automático, como la imputación kNN.
Lift
En minería de datos , el indicador de confianza (“lift”) compara la frecuencia de un patrón observado con la frecuencia en que podríamos ver ese mismo patrón por casualidad. Si el valor de “Lift” es próximo a 1, es muy posible que el patrón que hemos observado sea mera casualidad. Cuanto mayor sea este valor, más posibilidades hay de que el patrón sea real.
Industry 4.0
También conocida como 4º Revolución Industrial busca la transformación de una empresa hacia una organización inteligente para conseguir la optimización de sus recursos y el ahorro de costes. Como resultado de esta transformación digital, el negocio se vuelve más eficiente y consigue ser más competente.
Inferential Statistics
Una inferencia estadística (estadística deductiva) es cuando tratamos de sacar hipótesis sobre una población completa, analizando únicamente una muestra de ella. Por ejemplo, antes de sacar un medicamento al mercado, se hacen pruebas para ver su viabilidad. Pero es imposible hacer las pruebas sobre el conjunto de la población, así que se hacen sobre la muestra que la represente mejor.
Data Engineer
Son especialistas en tratamiento de datos. Los ingenieros de datos son aquellos que, a partir de un conjunto de datos confusos, crean la infraestructura que permite analizarlos de forma real y tangible. Para ello, utilizan programas ETL (Extract, Transform and Load—Extracción, Transformación y Carga de datos), combina conjuntos de datos y depura y enriquece los datos que algunas empresas llevan años almacenando.
Innovation
La innovación, en la mayoría de los casos, es una transformación mediante la cual se producen cambios para introducir mejoras o nuevas funcionalidades a soluciones existentes. En otras ocasiones se trata de procesos para crear nuevas soluciones desde cero. En cualquier caso, estos desarrollos se crean gracias al ingenio humano para mejorar nuestra calidad de vida como especie y está estrechamente conectada a la ciencia y a la tecnología.
Data Insight
No es difícil explicar el concepto, lo complicado es dar con un término en español que lo resuma. El concepto “data insight” significa el conocimiento o comprensión profunda de los datos de forma que pueda orientar acciones de negocio correctas y productivas. Las empresas “Data – driven” son aquellas que toman decisiones basadas en datos, en particular, en los Insights de datos (decisiones basadas en datos). Las soluciones de LUCA ayudan a las empresas a convertirse en empresas Data Driven.
Integrity (Data Governance)
Propiedad que debe cumplir la información contenida en un sistema de información por la cual, dicha información no puede ser modificada sin dejar traza de que se ha producido dicha modificación, ya sea en los soportes físicos en los que se almacena o en el transporte de la misma a través de redes de comunicación.
Artificial Intelligence of Things (AI of Things)
Cuando la inteligencia artificial y las tecnologías IoT, Big Data suman sus fuerzas, para que “las cosas sean capaces de aprender, compartir información entre ellas y tomar decisiones de manera casi desatendida” con el fin de ayudar a las organizaciones a tomar decisiones que mejoren la vida de las personas.
Artificial intelligence
También IA. En los orígenes de las IA, en los años 60, los investigadores implementaban principios generales de “inteligencia”, normalmente automatizando razonamientos basados en lógica simbólica. Según se fueron reduciendo los costes en recursos hardware y software, cambió el enfoque desde los razonamientos basados en reglas, a la toma de decisiones “inteligentes” basadas en el análisis estadístico de grandes cantidades de datos.
Cognitive intelligence
La Inteligencia Cognitiva es una parte, si bien una parte importante de la Inteligencia Artificial, que abarca principalmente las tecnologías y herramientas que permiten a nuestras apps, websites y bots ver, oir, hablar, comprender e interpretar las necesidades del usuario por medio del lenguaje natural. Es decir, son las aplicaciones de la IA que permiten a las máquinas aprender el lenguaje de los usuarios para que éstos no tengan que aprender el lenguaje de las máquinas.
Business Intelligence
Es el conjunto de estrategias, aplicaciones, datos y tecnologías usados por una organización para almacenar datos, analizarlos y extraer conclusiones (Insights) de las que derivar oportunidades de negocio estratégicas.
Internet of Things (IoT)
Internet of Things o Internet de las Cosas se basa en la conectividad de millones de objetos entre sí que nos permiten aprovechar al máximo todos los aspectos de nuestra vida. Se trata de objetos físicos con sensores integrados con el fin de conectar e intercambiar datos con otros dispositivos y automatizar tareas para que puedas dedicar tu tiempo a lo que realmente te gusta.
Interpretability
Indica el grado en el que las predicciones de un modelo pueden ser interpretables. Los modelos basados en Aprendizaje Profundo (Deep Learning) muchas veces no lo son, esto es, puede ser muy difícil descifrar lo que hace un modelo con distintas capas. Por el contrario, los modelos de regresión lineal sí resultan fácilmente interpretables.
Confidence interval
Rango definido en torno a un valor estimado para indicar el margen de error, combinado con la probabilidad de que un valor caiga en ese rango. La Estadística ofrece fórmulas matemáticas específicas para calcular los intervalos de confianza.
IoMT
Se llama IoMT o Internet de las Cosas Médicas a la sensorización de dispositivos médicos para poder recopilar los datos extraídos de dichos dispositivos y analizarlos para poder ofrecer un mejor servicio a los pacientes y profesionales de la salud. 
 
Esto se traduce en grandes ventajas para trabajadores y pacientes como: 
 
- El ahorro de recursos económicos digitalizando revisiones médicas a través de gadgets para poder reducir el coste de las facturas en hospitales 
- Mejora de la calidad de vida de los pacientes al gestionar y recopilar datos para poder detectar y prevenir enfermedades de una manera más personalizada 
- Automatización de procesos para poder optimizar los recursos y personal sanitario de la mejor manera posible 
- Mejora de la experiencia de usuario en el centro sanitario mediante la optimización del espacio mediante cuenta personas para reducir los tiempos de espera
J
K
k-means clustering
Es un tipo de Algoritmo supervisado que se usa para tareas de clustering. Es un proceso que de forma sencilla clasifica un conjunto de datos en cierto número de clusters o agrupaciones (digamos “k” clusters). Los datos son homogéneos dentro de cada cluster y heterogéneos respecto a los datos de clusters vecinos.
k-nearest neighbors
El Algoritmo K nearest neighbors es un sencillo algoritmo de clasificación que clasifica la probabilidad de que un elemento x pertenezca a una determinada clase, basándose en información sobre sus “k” vecinos. Al nuevo elemento se le asigna la clase más común entre sus vecinos más próximos, según una función distancia. Estas funciones distancia pueden ser de varios tipos: Euclídea, Manhattan, Minkowski o Hamming. Las tres primeras se usan para funciones continuas, y la cuarta, para variables categóricas.
L
Python Standard Library
Una librería no es más que un conjunto de módulos (ver módulos). La librería estándar de Python es muy amplia y ofrece una gran variedad de módulos que realizan funciones de todo tipo, desde módulos escritos en C que ofrecen acceso a funcionalidades del sistema como el acceso a ficheros (file I/O). En la web de Python se puede encontrar una referencia a todos los módulos en “ The Python Standard Library”. Los instaladores de Python para plataformas Windows, normalmente incluyen la librería estándar completa, incluso algunos componentes adicionales. Sin embargo, en las instalaciones Python mediante paquetes harán falta instaladores específicos.
Computational linguistics
Conocido también como procesamiento de lenguaje natural PLN. Es una rama de las ciencias de la computación que analiza el lenguaje hablado (por ejemplo, en chino o inglés) y lo convierte en datos estructurados que se pueden usar como comandos lógicos en un programa. En un principio, el foco estaba en traducir de un lenguaje a otro, o aceptar frases completas como consultas a bases de datos. En la actualidad, los esfuerzos se centran en analizar documentos y otros datos (por ejemplo tweets), para extraer información potencialmente valiosa.
M
M2M
Machine to Machine (M2M) es la conexión o intercambio de información, en formato de datos, que se crea entre dos máquinas conectadas. Es, en cierto modo, la conectividad en la que se basa Internet of Things (IoT). Actualmente el término M2M ha quedado obsoleto, ya que, se ha evolucionado hasta lo que denominamos IoT que, además de máquinas, también conecta a las personas.
Data Gobernance Manager
Es el encargado de definir y organizar el proceso de recogida, almacenamiento, y acceso a los datos, garantizando en todo momento su seguridad y confidencialidad. 
 
Su función es definir y verificar el cumplimiento políticas y conformidad con estándares. Gestionar el ciclo de vida de los datos y cerciorarse de que éstos estén custodiados de forma segura y organizada, y de que sólo pueden acceder a ellos las personas autorizadas. 
 
Para este rol es necesario combinar un conocimiento funcional de cómo funcionan las bases de datos y otras tecnologías asociadas, con uno conocimiento profundo de las regulaciones de cada industria en particular (financiera, farmacéutica, telecomunicación etc.) 
 
En definitiva, su función es “Definir y asegurar el cumplimiento de las reglas que definen el flujo de los datos”. 
 
Una vez tenemos un sistema en el que los datos están bien organizados, accesibles y custodiados de forma segura, lo que nos interesa es sacarles partido, extraer de ellos esos valiosos “Insights” o claves sobre patrones de comportamiento que, aplicados a nuestros procesos del día a día los hagan más eficientes e innovadores. Este es el momento en que entran en juego dos nuevos roles.
Support vector machine
Una máquina de vectores de soporte es un algoritmo de aprendizaje automático supervisado que se emplea tanto para tareas de clasificación como de regresión. Se basan en la idea de encontrar el hiperplano que mejor divida el conjunto de datos en dos clases diferenciadas. De forma intuitiva, cuando más lejos del hiperplano estén nuestros valores, más seguros estamos de que estén correctamente clasificados. Sin embargo, en ocasiones no es fácil entontrar el hiperplano que mejor clasifica los datos y es necesario saltar a una dimensión mayor (del plano a 3 dimensiones o incluso n dimensiones). 
 
Las SVM se usan para tareas de clasificación de textos, detección de spam, análisis de sentimientos etc. También se usan para reconocimiento de imágenes.
Confusion matrix
Es una tabla que se suele usar para describir el rendimiento de un modelo de clasificación. Consiste en una matriz N*N, donde N es el número de clases. La matriz se completa con los valores predichos por el modelo, versus los valores reales. El segundo cuadrante se llama error Tipo II o “falsos negativos”, mientras que el tercer cuadrante es error Tipo I o “falsos positivos”.
Correlation matrix
La matriz de correlación muestra los valores de correlación de Pearson, que miden el grado de relación lineal entre dos variables. Los valores de correlación suelen estar entre -1 y +1. Sin embargo, en la práctica, los elementos por lo general tienen correlaciones positivas. Si los dos elementos tienden a aumentar o disminuir al mismo tiempo, el valor de correlación es positivo. 
 
En general, las variables con valores de correlación mayores que 0,7 se considera que están altamente correlacionadas, aunque el valor puede depender de cada caso en particular.
Data Governance table
Las mesas de datos es un canal de responsabilidad social corporativo, solidario y ético donde de manera multidisciplinar se trabaja sobre los datos y las diferentes diciplinas de gobierno del dato. Pueden ser virtuales con workflows y automatismos o presenciales. Participación multidisciplinar donde se trabaja sobre los datos con los medios técnicos disponibles bajo cualquier situación.
Metadata
Datos sobre datos, permiten contextualizar la información. Describen características de los datos para ayudar a identificarlos, descubrirlos, valorarlos y administrarlos. Existen tres tipos de metadatos, técnicos, organizativos y de negocio (TON).
Evaluation metrics
El objetivo de las métricas de evaluación es medir la calidad del modelo estadístico/de machine Learning.
Data mining
Consiste en el uso de ordenadores para analizar grandes conjuntos de datos (estructurados o no estructurados), de diversas fuentes en búsqueda de patrones que permitan tomar decisiones de negocio. Es un término que data de los años 90. La minería de datos se usa para análisis de mercados, definir patrones de compra, planificación financiera, detección de fraude etc.
Predictive Modeling
Consiste en el desarrollo de modelos estadísticos y de aprendizaje automático que permitan predecir comportamientos futuros, basándose en datos históricos.
N
NB-IoT
NB-IoT son las primeras tecnologías estándar 3GPP diseñadas ad hoc para IoT en las bandas con licencia. Ambas tecnologías forman parte de las redes LPWA (low power wide area) y se han diseñado para optimizar el consumo masivo de Low Data y usos de IoT de bajo coste. Gracias a esta tecnología podemos reducir el coste de los dispositivos y extender la vida útil de las baterías durante años. Además, aporta una mejor cobertura tanto en interiores (sitios de cobertura complicados: por ejemplo, sótanos) como en exteriores (largo alcance).
New technologies
Las nuevas tecnologías son técnicas no usadas con anterioridad, si no que han surgido en los últimos años dentro de los campos de la informática y la comunicación. Son pequeños avances de la humanidad que ayudan a evolucionar a las personas y les hacen la vida más fácil. Es su día herramientas como Intenet, el DVD, los ordenadores de mesa, los ordenadores portátiles fueron ejemplos de este concepto. Hoy día compendemos como nuevas tecnologías conceptos como IoT, Big Data, Inteligencia Artificial, Realidad Virtual…
Ñ
O
P
Perceptron
El algoritmo perceptrón fue creado a finales de los años 50. Su primera implementación fue como hardware, de hecho, fue la primera red neuronal que se creó. El perceptrón es un algoritmo de aprendizaje supervisado para clasificadores binarios. Es un clasificador lineal, es decir, un algoritmo de clasificación basado en una función linear que aplica una serie de funciones peso a los valores de entrada, y pasa los valores de esta suma ponderada a una función cuyo resultado de salida es “o”. El perceptron es la red neuronal más sencilla, ya que simula el funcionamiento de una única neurona con n valores de entrada binarios. Calcula una suma ponderada de los valores de entrada y se dispara si esa suma es cero o mayor.
Profiling
El perfilado es el proceso de usar datos personales para evaluar ciertos aspectos personales para analizar y predecir el comportamiento / rendimiento / fiabilidad, etc.
Gradient Boosting
Gradient boosting o Potenciación del gradiente, es una técnica de aprendizaje automático utilizado para el análisis de la regresión y para problemas de clasificación estadística, el cual produce un modelo predictivo en forma de un conjunto de modelos de predicción débil, normalmente, árboles de decisión. Construye el modelo de forma iterativa y lo generaliza permitiendo la optimización de una función pérdida diferenciable arbitraria. (Wikipedia)
Accuracy
La fracción de predicciones correctas hechas por un modelo de clasificación. En un modelo multiclase, la precisión se define de la siguiente forma:  
 
 
Precisión=Predicciones correctas/Número total de ejemplos  
 
En el caso de clasificación binaria, la definición es:  
 
 
Precisión= (Verdaderos Positivos + Verdaderos Negativos) /Número total de ejemplos
Natural language processing (NLP)
El Procesado de Lenguaje Natural es la rama dentro del ámbito de las Ciencias de la Computación, la Lingüística y la Inteligencia Artificial que se encarga del estudio y desarrollo de técnicas que permitan a los ordenadores entender y procesar el lenguaje humano.
Data Processor – Procesador de datos
A menudo un tercero encargado de recopilar datos en nombre del controlador (a efectos RGDP)
Python
Es un lenguaje de programación creado en 1994 y que es muy usado en ciencia de datos. Para los principiantes, resulta muy sencillo de aprender, pero al mismo tiempo es un lenguaje muy potente para usuarios avanzados, ya que dispone de librerías especializadas para aprendizaje automático y generación de gráficos.
Q
R
RAG ( Retrieval-Augmented Generation)
Técnica de inteligencia artificial que mejora la generación de texto al buscar información en fuentes externas antes de responder. Permite crear respuestas más precisas y actualizadas, combinando recuperación de datos y generación de contenido. Se usa en chatbots, asistentes virtuales y motores de búsqueda avanzados.
GDPR
El Reglamento General de Protección de Datos (GDPR en inglés), que entró en vigor el 25 de mayo de 2018. Este nuevo reglamento tiene como objetivo principal gobernar la recopilación, el uso y el intercambio de datos personales. La cantidad de datos que creamos cada día está creciendo a un ritmo exponencial, y como dice la regulación, "el procesamiento de los datos personales debe estar diseñado para servir a la humanidad".
Virtual Reality
Es un sistema informático que genera simulaciones de espacios reales o ficticios donde podemos interactuar y explorar como si estuviéramos allí realmente.
Neural network
Se trata de un modelo que, inspirado en el funcionamiento del cerebro, se compone de distintas capas (al menos una de ellas oculta) que consisten en unidades sencillas conectadas entre sí (neuronas). 
 
Las redes neuronales se usan en aprendizaje profundo para tratamiento de imágenes (asociadas a características) y muchas cosas más. Lo que hace especial a este tipo de redes es el uso de la capa oculta de funciones “peso”, las neuronas, con la cual se pueden construir una red que reproduzca muchas otras funciones. Sin esa capa oculta, las redes neuronales no serían más que simples funciones ponderadas.
Convolutional neural networks (CNN)
Son modelos de aprendizaje profundo que pueden aprender automáticamente representaciones jerárquicas de características. Esto significa que las características calculadas por la primera capa son generales y pueden reutilizarse en diferentes problemas, mientras que las características calculadas por la última capa son específicas y dependen del conjunto de datos y la tarea elegidos.
Dimension reduction
Consiste en usar una técnica llamada análisis de componentes principales para extraer una o más dimensiones que capturan la mayor variación posible de los datos. Para ello se usa álgebra lineal, que, en pocas palabras, es la rama de las matemáticas que permite trasladar algo que ocurre en un espacio de m dimensiones, a otro espacio con un número de dimensiones menor.
Regression
Es un método de aprendizaje supervisado donde la variable de salida es un valor real y continuo, como la “estatura” o el” peso”. La regresión consiste en ajustar cualquier conjunto de datos a un modelo determinado. Dentro de los algoritmos de regresión podemos encontrar la regresión lineal, no lineal, por mínimos cuadrados, Lasso, etc
Linear Regression
Es una técnica que busca una relación lineal (esto es, una donde la relación entre dos cantidades variables, como pueden ser precios y ventas, se pueden expresar con una ecuación cuya representación gráfica es una recta) comenzando con un conjunto de puntos que, en un principio, no están bien aliendados. Este proceso ser realiza calculando la aproximación por mínimos cuadrados. Es aquella que, en un gráfico de coordenadas cartesianas x-y, ofrece un mejor ajuste a los datos de acuerdo con un criterio de mínimos cuadrados (minimiza la suma de cuadrados de las diferencias en las ordenadas entre los puntos generados por la función elegida y los correspondientes valores en los datos)-
Logistic Regression
Es un modelo similar a la regresión lineal, pero los resultados que se obtienen son categóricos, en lugar de ser valores continuos.
Resilience (Data Governance)
La resiliencia es la capacidad de los sistemas para mantener o restaurar su funcionalidad básica después de materializarse un riesgo o un evento (incluso desconocido).
Text summarization o Automatic summarization
Es la técnica mediante la cual podemos sintetizar fragmentos largos de texto en fragmentos de textos más cortos que contengan únicamente aquella información que es relevante. Gracias a esto podemos diseñar y desarrollar modelos que nos ayuden a condensar y presentar la información ahorrándonos tiempo de lectura y maximizando la cantidad de información por palabra.
Robot
Un robot es un sistema electromecánico con independencia propia para crear unos movimientos o realicen operaciones que puedan ser, como mínimo, cuestión de estudio. Se crean a través de una técnica llamada robótica, que se utiliza para diseñarlos y construirlos.
S
Clustering
Es un método de aprendizaje no supervisado que se usa para descubrir agrupamientos inherentes a los datos. Por ejemplo, agrupamiento de clientes según sus hábitos de compra para de esta forma segmentarlos. De esta forma, las empresas pueden definir las estrategias de marketing más apropiadas para incrementar sus beneficios. Ejemplos de algoritmos de clustering son: K-Means, clustering jerárquico etc.
Sensitivity and Specificity
Son métricas estadísticas que se usan para medir el rendimiento de un clasificador binario. 
 
La 
Sensibilidad (También llamada tasa de verdadero positivo, o probabilidad de detección en algunos campos) mide la proporción de casos positivos correctamente identificados por el algoritmo clasificador. Por ejemplo, el porcentaje de personas que padecen una enfermedad y que son correctamente detectadas. Su fórmula es: 
 
 
Sensibilidad=Verdaderos Positivos/ (Verdaderos Positivos + Falsos Negativos)  
 
La 
Especificidad (también llamada tasa de verdaderos negativos) mide la proporción de casos negativos correctamente identificados como tales por el algoritmo clasificador. Por ejemplo, se usa para indicar el número de personas sanas que han sido correctamente identificadas como tales por el algoritmo.  
 
 
Especifidad=Verdaderos Negativos/ (Verdaderos Negativos + Falsos Positivos)
IoT Sensors
Un sensor IoT es un dispositivo capaz de detectar, medir o indicar los cambios que se producen en un espacio/objeto físico, los transforma en una señal eléctrica y los cuelga de manera legible en una plataforma de conectividad. Estos sensores pueden medir multitud de variables (localización, temperatura, humedad, presión, velocidad…). Por si solos no serían útiles, por ello, todos los datos recogidos se cuelgan en una plataforma donde, a través del Big Data, podemos analizarlos y crear patrones de comportamiento para poder definir los valores y conseguir un valor añadido del dispositivo.
Spatiotemporal data
Son series temporalis de datos que también incluyen identificadores geográficos, como pares de coordenadas de latitud-longitud.
Time series data
Una serie temporal es una secuencia de medidas espaciadas en el tiempo intervalos no necesariamente iguales. Así las series temporales constan de una medida (por ejemplo, presión atmosférica o precio de una acción) acompañada de un sello temporal.
Bias
Es el término independiente en el origen. En los modelos de machine learning (aprendizaje automático) suele denominarse b o w0. En la siguiente fórmula sería el término b. 
 
 
y′=b+w1x1+w2x2+…wnxn 
 
En machine learning se llama sesgo a la tendencia del que aprende a repetir el mismo error de forma consistente. La Varianza es la tendencia a aprender hechos aleatorios sin tener en cuenta la señal. En ocasiones, por evitar la varianza (overfitting) se cae en el error opuesto, el sesgo (underfitting).
Pseudonymization
El proceso de seudonimización es una alternativa a la anonimización de datos. Mientras que la anonimización implica eliminar por completo toda la información identificable, la seudonimización pretende eliminar el vínculo entre un conjunto de datos y la identidad del individuo. Los ejemplos de seudonimización son encriptación y tokenización.
Manufacturing Execution System (MES)
Es s una herramienta clave para gestionar, planificar y optimizar la producción en tiempo real. Permite el seguimiento y control de los procesos, mejorando la eficiencia, la calidad y reduciendo costes. Además, facilita la adaptación a los retos de la Industria 4.0, como la sostenibilidad y la digitalización.
Expert system
Es un sistema que emplea conocimiento humano capturado en un ordenador para resolver problemas que normalmente resolverían humanos expertos. Los sistemas bien diseñados imitan el proceso de razonamiento que los expertos utilizan para resolver problemas específicos. Estos sistemas pueden funcionar mejor que cualquier humano experto tomando decisiones individualmente en determinados dominios y pueden ser utilizados por humanos no expertos para mejorar sus habilidades en la resolución de problemas.
Overfitting
Un modelo está “sobreajustado” cuando se han tenido en cuenta tantas peculiaridades y valores anónimos que el modelo se ha vuelto excesivamente complicado y no es aplicable a ningún conjunto de datos, salvo para el que se ha usado para entrenarlo.
Data Subject
El individuo cuyos datos se están utilizando (a efectos RGPD)
Attack surface
La superficie de ataque es el conjunto de puntos de entrada que un ciberdelincuente podría aprovechar para intentar acceder a los sistemas de una empresa. Incluye dispositivos, aplicaciones, usuarios, servicios en la nube y cualquier otro recurso conectado a la red.
T
Pivot table
Las tablas dinámicas resumen de forma ágil y rápida largas listas de datos, sin necesidad de escribir fórmulas o copiar celdas. Pero su característica más importante es que se pueden reorganizar de forma dinámica. Con tan sólo mover el ratón, se puede reorganizar la tabla pivot de forma que resuma los datos agrupándolos, por ejempo, por género, por edad o por localización geográfica. El proceso de reorganizar la tabla se conoce como “pivotar los datos”. Consiste en distribuir la información de forma que se puede examinar desde distintos ángulos. El término tabla pivot es una frase genérica utilizada por múltiples proveedores. Sin embargo, Microsoft Corporation ha registrado la marca específica de "PivotTable".
Fifth Generation Technology (5G)
El 5G es una de las nuevas conectividades que se están implementando en diferentes países cuya principal función es la de soportar velocidades de subida de información muy superiores a cualquier otra tecnología creada hasta el momento. Esto permite que, para los servicios que disfruten de esta tecnología, el envío de información sea todavía más rápido que el actual.
Tensor
Los tensores son objetos matemáticos que almacenan valores numéricos y que pueden tener distintas dimensiones. Así, por ejemplo, un tensor de 1D es un vector, de 2D una matriz, de 3D un cubo etc
Smart Retail
La tienda conectada también es conocida por otros nombre como tienda IoT, tienda del futuro o tienda inteligente. En definitiva, una tienda conectada es un comercio tradicional que ha pasado por una transformación digital y ha adaptado sus espacios a nuevos escenarios con dispositivos IoT para ofrecer a sus clientes una mejor experiencia de usuario. Las marcas, se están esforzando en adaptar las ventajas del comercio online a los puntos de venta físicos para atraer nuevos clientes, incrementar las ventas y aumentar su fidelidad hacia la marca.
Digital Transformation
La transformación digital es la reinvención de una empresa mediante la implementación de capacidades digitales a sus procesos, productos y activos para ser más eficientes, ofrecer una mejor experiencia al usuario y ahorrar en costes.
Transparency (Data Governance)
Concepto sobre el que se fundamenta la forma que los usuarios tienen para ser conscientes de la información almacenada por el servicio, dar y poder revocar su consentimiento explícito y poder tener acceso a revocarlo durante la operación del mismo y tener garantías de que se ha eliminado al terminar el mismo.
Data wrangling
Consiste en convertir los datos, normalmente por medio de lenguajes de script, en un formato en el que resulte más fácil trabajar con ellos. Es una tarea que consume mucho tiempo.
U
Graphics processing unit (GPU)
La unidad de procesamiento gráfico (GPU) es el componente hardware que se encarga de que el contenido se muestre correctamente en la pantalla o monitor del ordenador. Gestiona desde la interfaz de usuario hasta aplicaciones y páginas web y, por supuesto, juegos. 
 
El uso de la computación paralela masiva con GPUs ha sido clave para el desarrollo del 
Deep Learning.
V
Cross-validation
Se usa en la aplicación de algoritmos a conjuntos de datos. Consiste en un conjunto de técnicas que dividen los datos en datos de entrenamiento y datos de test. Los datos de entrenamiento se introducen en el algoritmo, junto con las respuestas correctas, y así “aprende” de los datos. Una vez entrenado, el algoritmo es capaz de predecir las respuestas correctas para cada uno de los datos de entrada del conjunto de datos de test. Las respuestas que da el algoritmo se comparan con los valores reales y así se puede estimar si el algoritmo lo hizo bien.
Outlier
Son valores extremos que pueden ser debidos a errores de medición o registro de los datos, o bien reflejo de eventos reales, pero poco frecuentes.
Categorical Variable
Las variables categóricas (o variables nominales) son aquellas que tienen valores cualitativos discretos. Por ejemplo, los nombres de ciudades como Madrid, Valencia, Bilbao, son categóricos.
Continuous variable
Se trata de variables cuyo valor puede ser cualquiera que se pueda expresar con un número decimal. La edad, o el tamaño, pueden ser variables continuas. Tiene 2,5 años. Su representación gráfica es una función continua. Las variables discretas, por el contrario, se expresan por números enteros, o valores concretos como por ejemplo “hombre”, “mujer”, “sí” o “no”.
Dependent Variable
Se llama variable dependiente porque su valor tiene que ver (“depende”) con el de la variable dependiente. Si estamos midiendo el efecto que tiene el volumen del presupuesto de publicidad sobre las ventas totales, el presupuesto de publicidad sería la variable independiente y las ventas totales, sería la dependiente.
Discrete Variable
Se trata de una variable cuyos valores potenciales pertenecen a un conjunto específico de valores. Por ejemplo, si alguien califica una película entre una y cinco estrellas y no están permitidos valores fracción de estrella (por ejemplo, cuatro estrellas y media), la variable calificación es una variable discreta. En una representación gráfica, las variables discretas se expresan en forma de histogramas.
Vector
La definición matemática de un vector es “una cantidad que tiene una magnitud y una dirección, representada por una flecha cuya longitud representa la magnitud y cuya orientación en el espacio representa la dirección”. Sin embargo, los científicos de datos utilizan el término en este sentido: “conjunto ordenado de números reales que denotan una distancia sobre un eje de coordenadas. Estos números pueden representar características de una persona, película, producto o lo que queramos modelar. Esta representación matemática de las variables permite trabajar con librerías de software que aplican operaciones de matemáticas avanzadas a los datos. 
 
Un espacio vectorial es un conjunto de vectores, por ejemplo, una matriz.
W
X
Y
Z