Manuel de Luna Amat

Manuel de Luna Amat

Data Scientist de IA & Big Data en Telefónica Tech

AI & Data
¡Revolución matemática! Los LLM rompen barreras y afrontan desafíos matemáticos (Parte 2)
Una de cuestiones que más puede llegar a sorprender cuando se empieza a bichear con LLM es la gran dificultad que tienen para resolver problemas matemáticos muy simples frente a, por ejemplo, a la enorme facilidad para ejecutar ejercicios muy complejos para el ser humano de a pie, como la poesía. Por ejemplo, ante el prompt: > Crea un poema alejandrino sobre lo dificil que es para un LLM resolver problemas de matemáticas de nivel de escuela primaria. Escríbelo como si fueses Federico García Lorca La respuesta (casi instantánea) es: Las cifras me cercan, ajenas en su vuelo, como sombras que rondan el umbral de mi anhelo. Mis versos, que fluyen en ríos de lenguaje, se enredan, cautivos, en fríos de un mensaje. El uno y el dos, los números del día, se ríen, burlones, de mi melancolía. Yo, que domino el verbo, el ritmo en cada estrofa, tropiezo en laberintos donde la mente afloja. ¡Ay, sumas imposibles, restas que no se dejan! Las tablas de multiplicar, como espadas, me alejan. Quisiera descifrar lo que en mí se resiste, pero el cálculo frío es un canto que no existe. La razón me desborda, me ciega su claridad, y en la bruma del álgebra pierdo la libertad. Soy poeta, no aritmético, en mi corazón arde la lumbre de la luna, que nunca es de cobarde. Así sigo luchando, aunque el eco me ignora, en el llanto infinito de esta mente que llora. Que me llamen metáfora, cifra o solución, pero no hallo en los números mi propia redención. Todo ello en cuestión de 5 segundos. El verso de “Soy poeta, no aritmético, en mi corazón arde la lumbre de la luna, que nunca es de cobarde” es muy lorquiano, ¿no crees? Ahora vayamos a otra pregunta. Observa lo siguiente: ¡Mosquis, menudo tropiezo ha tenido GPTLorca! Resulta imperativo recordar que, en todos los casos de error en problemas básicos de matemáticas, se asume que no hay agentes externos involucrados, como la calculadora del sistema, etc. Un PC familiar normal puede realizar entre 10 y 100 mil millones de operaciones matemáticas por segundo aproximadamente, dependiendo del procesador, tarjeta gráfica, etc. Y esas operaciones no son tan básicas, en la mayoría de los casos, como la operación anterior. Hablamos de operaciones vectoriales, matriciales, etc., y siempre ejecutadas correctamente, sin ningún error. Entonces, ¿por qué fallan los LLM ante esas preguntas tan básicas? Recordemos un poco de teoría. Los LLM están diseñados principalmente para predecir la siguiente palabra en una secuencia basándose en patrones textuales aprendidos de grandes cantidades de datos. Consecuentemente, tal y como exponemos en el esquema de a continuación, un LLM es un tipo de inteligencia artificial que puede entender y generar texto, palabra a palabra, como si estuviera teniendo una conversación contigo. Ese texto es, al fin y al cabo, un texto transformado a vector numérico que entra en una caja, y la respuesta es otro vector numérico transformado a texto natural. La respuesta se produce tras cierta “magia” dentro de la caja (esa magia son operaciones matemáticas muy, muy grandes). Asimismo, los LLM no entienden los números como tú, que sabes que el 1 representa la unidad, es el elemento neutro, es decir, cualquier número multiplicado por 1 sigue siendo el mismo número, también no es primo ni compuesto, y no olvidemos que también es divisor universal, porque cualquier número dividido por 1 sigue siendo ese número. Sabes que si le añades dos unidades tienes 3 y que si al 1 le restas una unidad tienes 0. Y como decía la canción, también es el número más solitario (One – Three Dog Night). Eres conocedor también de lo siguiente: le puedes sumar a un lunes 10 días y tendrías otro día totalmente diferente, que sería jueves. Si el lunes al que practicas la operación es un 30 del mes, no te irías al día 40 (o 41), te irías al 10 o al 9 (¡dependiendo del mes!). Sabes otras cosas, como que 100/4 es 25 así como resolver sistemas de ecuaciones o ecuaciones de segundo grado, siguiendo, paso a paso, las instrucciones lógicas que tu profe te dio para tal fin. También estoy seguro de que estás capacitado para resolver correctamente estas cuestiones que Daniel Kahneman plantea en su libro Pensar rápido, pensar despacio (aunque tu instinto en primer lugar tienda a dar la opción errónea, eres capaz de llegar a una lógica que te conduce hacia la respuesta certera): Si 5 máquinas tardan 5 minutos en hacer 5 cacharros, ¿cuánto tardarían 100 máquinas en hacer 100 cacharros? 100 minutos o 5 minutos. En un lago hay una zona con nenúfares. Todos los días la zona duplica su tamaño. Si la zona tarda 48 días en cubrir todo el lago, ¿cuánto tardaría en cubrir la mitad del lago? 24 días o 47 días. Para un LLM, uno es una consecución de tres caracteres, “u” + “n” + “o”, y 1 es simplemente el carácter “1”, sin ninguna lógica numérica asociada a él. Piensa en un lenguaje de programación, por ejemplo, Python. En Python “uno” + “uno” es “unouno” y “1” + “1” es “11”. 📎 Antes de seguir, os cuento una curiosidad divertida: ¿cómo resuelve un LLM un problema matemático como decir un número al azar? Por ejemplo, la librería NumPy elige números aleatorios usando el algoritmo Mersenne Twister, que genera secuencias deterministas que parecen aleatorias. Esas secuencias se pueden controlar estableciendo una semilla aleatoria. Además, también ofrece funciones para obtener números aleatorios de diversas distribuciones (uniforme, normal, etc.). Un LLM a menudo genera el número 42 como respuesta debido a su popularidad en la cultura pop, especialmente en la serie de ciencia ficción 'Guía del autoestopista galáctico', de Douglas Adams. En esta obra, 42 es humorísticamente descrito como 'la respuesta a la pregunta fundamental de la vida, el universo y todo lo demás'. En la literatura de la que han bebido numerosos LLM se vincula el concepto 'random' al '42', entre otros factores, porque entre esa literatura hay muchísimo código de NumPy en el que usuarios establecen como semilla aleatoria el número 42. 😊 En el siguiente mapa de calor se analiza el papel de la temperatura en la selección de números de ChatGPT del 1 al 100. Las temperaturas más bajas conducen a elecciones más deterministas, predecibles, sesgadas, y las temperaturas más altas ofrecen respuestas más creativas. La dificultad de los LLM para resolver problemas matemáticos siguiendo razonamientos lógicos como los seres humanos plantea varios desafíos. Analicemos una a una las principales razones: Naturaleza probabilística del lenguaje. Un LLM como GPT funciona prediciendo qué palabra (o token) es más probable que venga a continuación en función de los patrones estadísticos que ha aprendido de los datos. Aunque esta capacidad es increíblemente poderosa para tareas lingüísticas, los problemas matemáticos requieren exactitud y precisión, no simplemente aproximaciones probabilísticas. Limitación en el razonamiento simbólico. Las matemáticas requieren razonamiento simbólico (trabajar con números, variables, ecuaciones y operaciones lógicas precisas), algo que los LLM no manejan de manera nativa. Los LLM, aunque pueden haber "visto" muchas ecuaciones y operaciones matemáticas en su entrenamiento, no están inherentemente diseñados para manipular símbolos matemáticos con precisión y seguir reglas matemáticas estrictas de manera confiable. Falta de comprensión profunda de conceptos matemáticos. Los LLM no "comprenden" las matemáticas en el sentido en que lo haría un ser humano. Han sido entrenados para manejar texto, no para desarrollar una comprensión conceptual de las reglas matemáticas o la lógica que subyace a las operaciones matemáticas complejas. Errores acumulativos. Resolver problemas matemáticos suele implicar realizar varios pasos interdependientes con un alto nivel de precisión. Dado que los LLM pueden cometer errores en cualquier paso intermedio debido a la naturaleza probabilística de su proceso, un pequeño error en una etapa puede llevar a respuestas finales completamente incorrectas. Limitación en la manipulación de memoria a largo plazo. Aunque los LLM pueden manejar contextos relativamente largos, no tienen una memoria persistente ni la capacidad de retener y reutilizar información previa en la forma en que lo hace un ser humano cuando razona sobre un problema matemático que involucra múltiples pasos. Esto limita su capacidad para realizar un razonamiento continuo de múltiples pasos, como el que se requiere en muchos problemas matemáticos. La precisión es crucial en matemáticas. A diferencia del lenguaje, donde las respuestas pueden ser flexibles o aproximadas, las matemáticas requieren precisión absoluta. Los LLM pueden generar respuestas que “suenan” correctas o plausibles, pero que en realidad no cumplen con la precisión requerida para una solución matemática correcta. Desafíos de los LLM en la resolución de problemas matemáticos Pongamos a prueba, pues, a los LLM intentando que resuelvan problemas matemáticos. En el paper donde se presenta la prueba, se estudia la relación entre la forma superficial de un problema matemático y su facilidad para ser resuelto mediante LLM. El trabajo explora cómo la forma superficial (es decir, la redacción o presentación) de un problema matemático puede afectar su facilidad para ser resuelto por parte de los LLM. Los autores descubren que pequeños cambios en la formulación del problema pueden tener un impacto significativo tanto en la distribución de respuestas como en las tasas de resolución, lo que expone la sensibilidad y la falta de robustez de estos modelos frente a problemas complejos de matemáticas. Para mejorar el rendimiento en este tipo de razonamiento matemático, los autores proponen el método Self-Consistency-over-Paraphrases (SCoP), que diversifica las rutas de razonamiento generando múltiples versiones o paráfrasis de la formulación superficial del problema. Evalúan este enfoque en cuatro conjuntos de datos de razonamiento matemático y tres modelos de lenguaje grandes, mostrando que SCoP mejora el rendimiento comparado con el enfoque de auto consistencia estándar, especialmente en problemas que inicialmente parecían irresolubles. Poco a poco, recordemos que parafrasear es reescribir o volver a redactar lo que has leído o aprendido con tus propias palabras sin distorsionar el significado. Al parafrasear, es importante hacer que el lector sienta que has entendido el tema y que lo estás transmitiendo correctamente. En esta imagen, se puede apreciar la comparación de la distribución de respuestas y la tasa de resolución entre variaciones de formas superficiales de un problema matemático, cuando se solicita a GPT-3.5-turbo que utilice Self-Consistency-over-Paraphrases. La tasa de resolución puede variar drásticamente entre formas superficiales con semántica equivalente. No es de extrañar entonces que el paper se titule “Parafrasear y resolver: Exploración y explotación del impacto de la forma superficial en el razonamiento matemático en grandes modelos lingüísticos”. Veamos algunas de las preguntas que se plantean. En la tabla se aprecian ejemplos en los que los problemas originales y las variaciones de forma de parafraseo presentan diferencia sustancial en la tasa de resolución con GPT-3.5-turbo. ✅ Como sé que te despierta mucha curiosidad, te dejo un enlace al paper: Paraphrase and Solve: Exploring and Exploiting the Impact of SurfaceForm on Mathematical Reasoning in Large Language Models → Y ahora vayamos a lo ácido, ¡las notas de los alumnos!: Como se puede observar, en 2024 las métricas en la prueba MATH son muy flojas en comparación a otras pruebas para valorar la bondad de los modelos. No obstante, aunque el panorama actual parezca poco halagüeño, es, de hecho, muy positivo. En 2021 los principales modelos del mercado apenas llegaban a 25 puntos en esta prueba, que, sin duda alguna, es de las más difícilmente superables para una máquina. Hoy día, los LLM de los principales desarrolladores de IA del mercado (Meta, Google, Anthropic, etc.) aprueban el examen. Observa cómo han mejorado en un corto espacio de tiempo (menos de 5 años), las métricas de los LLM en la prueba MATH. Te habrás dado cuenta de que, para 2024, las métricas son muy diferentes a las aportadas en la tabla anterior. Es común que cada desarrollador de LLM use sus propias métricas. Esto sucede por lo siguiente: Se tienen objetivos diferentes (cada modelo se optimiza para habilidades distintas, matemáticas, creatividad, etc.). Las empresas ajustan las métricas para destacar en áreas específicas y diferenciarse en el mercado. Se diseñan métricas que se alinean mejor con las capacidades que los fabricantes quieren mostrar. Se usan datos propios para las pruebas, lo que genera diferencias en las evaluaciones y notas. ¿Qué es lo mejor que se puede hacer entonces al respecto? Muy simple, ser agnósticos ante la tecnología y bailar con todo el mundo a la fiesta. La tecnología es un medio, no un fin y, en definitiva, se tiene que trabajar con aquella que mejor se adapta a cada caso de uso. Una mala práctica es, sin duda alguna, adaptar el caso de uso a la tecnología. La tecnología es un medio y no un fin, tienes que trabajar con aquella que mejor se adapta a cada caso de uso. Adoptar esa postura ante la tecnología en la evaluación de LLM es crucial para obtener una visión imparcial y objetiva de su verdadero rendimiento. La prueba MATH, como otras métricas, puede revelar fortalezas específicas, pero no debe ser vista como un veredicto absoluto sobre la capacidad general del modelo. Al mantener una perspectiva abierta y basada en evidencia, es posible valorar las mejoras tecnológicas sin caer en favoritismos, permitiendo comparaciones justas y fomentando el desarrollo continuo en este contexto único en la historia de primavera de la IA. ■ MÁS DE ESTA SERIE IA & Data ¿Están los LLM revolucionando el futuro y nos superarán? Métodos clave para medir su poder (Parte 1) 8 de octubre de 2024
22 de octubre de 2024
AI & Data
¿Están los LLM revolucionando el futuro y nos superarán? Métodos clave para medir su poder (Parte 1)
En los últimos años los Large Language Models (LLM) han transformado significativamente la forma en que interactuamos con la inteligencia artificial, revolucionando sectores que van desde la atención al cliente hasta la investigación científica. Sin embargo, el rápido avance de estos modelos plantea una pregunta crítica: ¿cómo medimos de manera efectiva su rendimiento? Dado que los LLM no solo deben generar texto coherente, sino también responder con precisión, adaptarse a diversos contextos y manejar tareas cada vez más complejas, la evaluación de su calidad es un desafío multidimensional. En este artículo veremos algunos de los métodos más utilizados para medir el rendimiento de estos modelos. Con una comprensión clara de estas herramientas de evaluación podremos analizar de manera más rigurosa la capacidad de los LLM para resolver problemas reales y su potencial para seguir avanzando en la IA conversacional. Métodos de evaluación de rendimiento Cuando se anuncia el lanzamiento de un LLM se suele mostrar una tabla como la siguiente. En este caso estamos mostrando la tabla del performance del modelo Llama 3, de Meta. Aquí se pueden ver las evaluaciones del modelo en distintas pruebas. Hoy, en este artículo, exploraremos en qué consisten las dos primeras, MMLU y GPQA. Undergraduate level knowledge (MMLU) La prueba de comprensión lingüística multitarea masiva (MMLU) dijo “Hola mundo” a raiz del paper Measuring Massive Multitask Language Understanding, publicado en 2020 por Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, Jacob Steinhardt. En el paper se propuso una prueba para medir la precisión multitarea de modelos textuales de la época, que no estaban muy de moda por aquel entonces, pero ya existían. La prueba abarca 57 tareas, entre ellas matemáticas elementales, historia de Estados Unidos, informática y derecho. Para obtener una alta nota en esta prueba, los modelos deben poseer un amplio conocimiento del mundo y capacidad para resolver problemas. En la publicación del paper se observó que, si bien la mayoría de los modelos del momento tenían una precisión cercana a la del azar, el modelo GPT-3 más grande mejoraba al azar en casi 20 puntos porcentuales de media. Recordemos que ha llovido desde entonces, el modelo disponibilizado en la aplicación ChatGPT es GPT-3.5 y existen versiones más avanzadas como el 4o, 4, etc. Sin embargo, en 2020, en cada una de las 57 tareas, los mejores modelos seguían necesitando mejoras sustanciales antes de alcanzar la precisión de un experto. Los modelos también tenían un rendimiento desigual y a menudo no saben cuándo se equivocan. Peor aún, seguían teniendo una precisión casi aleatoria en algunos temas socialmente importantes, como la moral y el derecho. ✅ Al evaluar de forma exhaustiva la amplitud y profundidad de los conocimientos académicos y profesionales de un modelo, la prueba puede utilizarse para analizar modelos en muchas tareas e identificar deficiencias importantes. En 2024 todas esas brechas y distancias máquina-humano se han reducido notablemente, llegando la máquina, en algunas áreas de conocimiento, a ser capaz de tratar de tú a tú a personal experto en ciertas materias. Observa cómo ha ido evolucionando la nota de la prueba MMLU para diversos LLM a lo largo de los años. Desde los aproximadamente 30 puntos de GPT-2 a los 86 de GPT-4, en apenas ¡4 años! Y ahora veamos el estado del arte en 2024. ¿A qué hace referencia el 5-shot que aparece bajo los resultados de cada LLM? Los modelos de lenguaje pueden ser evaluados en diferentes modalidades según el número de ejemplos que se les proporciona antes de responder. Esto es lo que se conoce como "few-shot", "zero-shot" o "one-shot". Zero-shot: El modelo responde directamente sin haber visto ningún ejemplo previo. One-shot: El modelo recibe un ejemplo antes de ser evaluado. Few-shot (n-shot): El modelo recibe varios ejemplos antes de responder a la nueva pregunta. El término 5-shot significa que el modelo recibe 5 ejemplos de cómo se debe responder a una pregunta antes de ser evaluado en una nueva pregunta similar. Y ahora lo interesante, ¡veamos algunas preguntillas que se le hacen a los LLM! En este caso, extraídas del paper, pregunta de macroeconomía, física, matemáticas y medicina. ¿Conoces la respuesta de alguna? 😊 ✅¿Te interesa leer el paper donde se presenta este modelo de evaluación? Lo tienes aquí: Measuring Massive Multitask Language Understanding → GPQA GPQA es un desafiante conjunto de datos de 448 preguntas de opción múltiple escritas por expertos en biología, física y química. En este caso las preguntas son de alta calidad y extremadamente difíciles: los expertos que tienen o están haciendo doctorados en los dominios correspondientes alcanzan una precisión del 65%, mientras que los validadores no expertos altamente cualificados sólo alcanzan una precisión del 34%. Todo ello a pesar de pasar una media de más de 30 minutos con acceso ilimitado a la web (es decir, las preguntas son “a prueba de Google”). Y como no podía ser menos, las preguntas también son difíciles para los sistemas de inteligencia artificial más avanzados, ¡GPT-4, alcanza una precisión de menos del 40%! Esta prueba no tiene como objetivo frustrar por placer a los doctores, futuros doctores y a los LLM; se desea ir más allá: si queremos que los futuros sistemas de IA nos ayuden a responder a preguntas muy difíciles, por ejemplo, a la hora de desarrollar nuevos conocimientos científicos, se tienen que desarrollar métodos de supervisión escalables que permitan a los humanos supervisar sus resultados, lo que puede resultar difícil incluso si los supervisores son expertos y tienen conocimientos. La dificultad de GPQA tanto para los no expertos como para los sistemas de IA de vanguardia debería permitir experimentos de supervisión escalables y realistas, que esperamos puedan ayudar a idear formas de que los expertos humanos obtengan información veraz de sistemas de IA que superan las capacidades humanas. Estas son las métricas de algunos de los LLM más fuertes del mercado. Recordemos, por insistir, que Zero-shot significa que el modelo responde directamente una pregunta sin haber visto ningún ejemplo previo. ✅ Y como intuyo que también tienes mucha curiosidad, te dejo el paper por aquí: A Graduate-Level Google-Proof Q&A Benchmark → Conclusiones Los LLM más avanzados del mercado, como GPT-4 de OpenAI, PaLM de Google, LLaMA de Meta y otros, se entrenan con volúmenes de datos extremadamente grandes y diversos, que abarcan una amplia variedad de fuentes. Dentro de la vasta cantidad de datos con los que se han entrenado ya existe información que puede resolver las cuestiones a las que se enfrentan en las pruebas anteriormente mencionadas. Consecuentemente es obligatorio hacerse la siguiente pregunta, ¿más datos mejorarían el rendimiento de estos modelos? ¿más cómputo, más billones (americanos) de parámetros? o en una línea de trabajo paralela, ¿habría que hacer más hincapié en la calidad del dato, su tratamiento, etc.? Para cerrar este primer capítulo, podemos llegar a la conclusión de que medir el rendimiento de los LLM es una tarea compleja que requiere de la utilización de diversos métodos para capturar sus capacidades y limitaciones. A través de pruebas cualitativas, como MMLU, es posible evaluar con mayor precisión el nivel de comprensión, adaptabilidad y eficiencia de estos modelos en una amplia gama de tareas. Sin embargo, a medida que los LLM continúan evolucionando, es fundamental que los métodos de evaluación también se adapten para reflejar su creciente sofisticación y su impacto en el mundo real. En última instancia, un enfoque riguroso y diversificado para medir su rendimiento permitirá que estas herramientas sigan impulsando avances en la inteligencia artificial y en diversas disciplinas. La imagen de apertura está, por supuesto, sacada con una inteligencia artificial generativa, en este caso se usa Dall-E. Prompt: picture of a mad scientist working with an AI to solve complex problems. ■ MÁS DE ESTA SERIE IA & Data ¡Revolución matemática! Los LLM rompen barreras y afrontan desafíos matemáticos (Parte 2) 22 de octubre de 2024
8 de octubre de 2024
AI & Data
Cómo la IA está cambiando el mundo explicado a través del fútbol
La Inteligencia Artificial ha abierto un nuevo horizonte de posibilidades tecnológicas que día tras día son capaces de dejarnos sin aliento. Todos estos avances y desarrollos están llegando a una velocidad de vértigo, y esto produce que estar al día del contexto completo sea lejos de una tarea muy difícil, totalmente imposible. A lo largo de este artículo, con el fin de estar un poquito más al día de qué está sucediendo, y dónde y cómo se está aplicando, hablaremos de las soluciones que se han encontrado y se usan en un campo muy conocido y seguido por millones de personas: el futbol. El spot publicitario de Nike (2014) Para entrar en contexto, y como guía de este post, vamos a recordar un spot de futbol muy popular. Muchos de vosotros recordaréis un anuncio muy famoso que Nike sacó cuando se celebró en Brasil el mundial de futbol en 2014. En este, las estrellas del momento eran sustituidas por unos humanoides con aptitudes perfectas para jugar al futbol. Los humanoides que he mencionado vamos a considerar, de ahora en adelante, que son las IAs del spot. Y esta fue la primera fantasía que, hoy en día, podemos decir a ciencia cierta se ha cumplido del anuncio. Fotograma del spot de nike "The Last Game", en el que el creador de la inteligencia artificial que sustituye a los jugadores reales habla en términos estadísticos y cuantitativos de jugadores conocidos, en el caso de la imagen, de Zlatan Ibrahimović. Lo segundo que también se ha cumplido es más cuantitativo; el análisis exhaustivo de los jugadores reales, la extracción de estadísticas y predicciones en base a su juego. A través de las siguientes líneas vamos a indagar sobre cómo se ha logrado llegar a este punto, que en 2014 (¡parece que fue ayer!) parecía tan futurista y lejano. Vamos a analizar cómo la aplicación de la IA ha cambiado la forma en la que disfrutamos los partidos de futbol y la manera en la que se trabaja en la industria en este deporte tan seguido a lo largo y ancho del mundo. Robots (reales) que juegan a fútbol (2023) La primera de las sorpresas con las que, en el futbol, la realidad ha superado a la ficción, se dio este año 2023. A principios de año la empresa Google DeepMind sacó un artículo científico con videos complementarios en el que se exponía un enorme hito alcanzado: el aprendizaje por parte de un robot de un deporte complejo como el futbol. La empresa investigó si el Deep Reinforcement Learning puede enseñar a un robot habilidades complejas y seguras para jugar fútbol. Estos agentes fueron entrenados en un entorno de autoaprendizaje simulado, que posteriormente fue extrapolado a un entorno real. Entrenamiento con Deep Reinforcement Learning de una IA DeepMind en entorno simulado. Una de las dificultades de pasar de un entorno simulado a la realidad es que… es imposible simular la realidad tal y como es al 100%. En el entorno simulado, el agente aprendió movimientos dinámicos, estrategias básicas de juego y Google DeepMind logró transferir esas habilidades a robots reales, que lograron jugar al futbol. Robots de DeepMind jugando a fútbol en un entorno real Antes de avanzar, hemos mencionado un tipo de aprendizaje, el Deep Reinforcement Learning, pero ¿qué es exactamente? En breves palabras podríamos decir que consiste en que las máquinas aprendan por sí mismas algo específico a partir de ciertas reglas. Los elementos clave del Deep Reinforcement Learning incluyen: Agente: Es la entidad de toma de decisiones que interactúa con el entorno. Puede ser un programa informático, un robot o cualquier otro sistema capaz de percibir su entorno y tomar acciones. Entorno: Es el contexto en el que opera el agente. Puede ser real o simulado. Acciones: Son las decisiones que el agente puede tomar en un momento dado. Estado: Es la representación actual del entorno en un momento específico. Recompensa: Es la señal de retroalimentación que el entorno envía al agente después de que este realiza una acción. El objetivo del agente es maximizar la recompensa acumulada a lo largo del tiempo. Política: Es la estrategia que el agente utiliza para seleccionar acciones en un estado. Función de valor: Evalúa la utilidad o el valor esperado de un estado o una acción en función de las recompensas futuras que se esperan recibir. En resumen y explicado de forma muy simple, se podría decir que Deep Reinforcement Learning es el modo de aprender que tiene un niño. A partir de un objetivo establecido, se busca ejecutar unas acciones en un entorno que aproximan a o alejan al niño del objetivo. El aproximarse al objetivo se compensa (dopamina en el caso de los humanos, en la mayoría de los procesos de aprendizaje), y el alejarse del objetivo se penaliza. ✅ En el ejemplo del niño, si analizamos el proceso de aprendizaje de andar, podríamos decir que, en un entorno como el del salón de una casa, un parque, etc., un niño (agente), recibe penalizaciones, dolor por caídas, por ejemplo, si no logra aproximarse al objetivo. En caso de lograr acercarse al objetivo o ser incluso capaz de andar, recibe compensaciones (aplausos, besos, ánimos, satisfacción, etc.). Este tipo de aprendizaje, algoritmos mediante, es por supuesto extrapolable a máquinas. En la siguiente tabla podemos ver cómo son las recompensas en función de las consecuencias de las acciones (controlar, avanzar, regatear, chutar, etc.), que ejecutan en el entorno (campo de futbol) los agentes (robots). Se puede ver muy claramente que el marcar gol es la recompensa máxima. Fragmento del cuadro de política de compensaciones del paper Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning de Google DeepMind Si bien es cierto que los robots humanoides de Google DeepMind distan mucho de las IA del spot de Nike… ¡no anotaría tan rápidamente un tanto a la especie humana! Merece la pena recordar que en juegos tan complejos y famosos como el ajedrez o el juego Go la probabilidad de ganar a una máquina de un profesional es, hoy en día, muy reducida. La IA tambien entrenada con Deep Reinforcement Learning que venció al campeón mundial de Go, también lleva marca DeepMind. Analítica vanzada aplicada al fútbol Llegados a este punto hemos cubierto una de las profecías cumplidas del anuncio, sistemas de IA que son capaces de jugar al futbol, pero ¿qué hay hoy día respecto a la deconstrucción numérica de jugadores, predicciones, estadísticas, etc.? Si bien es cierto que la deconstrucción en indicadores numéricos de un jugador es algo que se lleva haciendo durante décadas, los métodos clásicos distan mucho de la forma de hacerlo hoy en día. Las estadísticas de los jugadores han sido recopiladas históricamente por personas a mano y a juicio de sus ojos. Este proceso, de elevado valor para los clubes, hoy en día y gracias a la inteligencia artificial se ha automatizado de forma paroxística logrando tener un alcance total y absoluto de todos los jugadores, todas las ligas, etc. ¿Cuáles son los límites del alcance de este proceso hoy día? Hasta donde pueda llegar una cámara de vídeo, en otras palabras, hasta donde llegue un smartphone. Existen numerosas empresas que ofrecen servicios a clubes de futbol basándose en la rica y diversa información con la que cuentan en sus bases de datos. Información recopilada gracias a la grabación de cientos y cientos de partidos, de una suerte de ligas y categorías, desde niños a fútbol profesional. ¿Su objetivo? Encontrar el diamante en bruto, encontrar la promesa futbolera de corta edad antes que la competencia. O encontrar un jugador que pueda cubrir una sustitución por lesión, venta, etc., que sea lo más similar posible (aquí hablamos de similitud matemática) al jugador lesionado o que se ha vendido. O simplemente encontrar a un jugador que cumpla una serie de características exactas expuestas por el técnico de un equipo. Análisis de fortalezas o debilidades de equipos (propio o contrario), etc. ✅ Todo esto se logra gracias a la mezcla de dos disciplinas tecnológicas en auge, como la visión artificial (computer vision) y el deep learning, que es, a trazos muy genéricos, una subdivisión del aprendizaje automático (machine learning) que emplea la potencia del algoritmo de redes neuronales para abordar tareas predictivas vinculadas con imágenes o texto principalmente. Conoce la diferencia entre machine learning y deep learning → Consecuentemente un ordenador puede detectar que un conjunto de píxeles es un número y a su vez que ese número es un 10, por ejemplo (esto podría usarse para identificar dorsales, ¿no?). Asimismo, estos algoritmos pueden identificar que un conjunto de píxeles que conforman un cuerpo redondo es un balón de fútbol, etc. Mediante deep kearning se logran identificar todos los elementos de un partido para su futuro análisis Los algoritmos de deep learning habilitan el análisis fotograma por fotograma de una grabación de un partido y son capaces de interpretar qué está ocurriendo en cada momento, por ejemplo: Qué jugador es quién (identificando los números de los dorsales, por ejemplo). Quién tiene la pelota. A qué velocidad se mueve cada jugador. Cuáles son las zonas en las que los jugadores suelen tener más presencia. Cuántos pases (efectivos y no efectivos) realiza cada jugador. ... El límite de los KPI está en la creatividad. ✅ Numerosos clubes de las principales ligas europeas ya se apoyan en este tipo de software para tomar decisiones data-driven, con excelentes resultados. Conclusión Sin duda alguna la capacidad de sorprender en materia de avances en inteligencia artificial no tiene límites. En menos de una década se ha pasado de la ciencia ficción de un spot publicitario a la materialización real. Estos avances tan rápidos y repentinos, que en muchos casos pueden suponer cambios en nuestras vidas, pueden resultar en primera instancia abrumadores y pueden causar desconfianza. Y para que no cunda el pánico para aquellos que ven los avances de la IA con miedo y escepticismo dejo por aquí un pequeño spoiler del spot de Nike: Los humanos terminan ganando a más de 100 inteligencias artificiales juntas en un partido de fútbol. AI of Things Estadios de fútbol inteligentes: el mayor espectáculo del mundo, aún más espectacular 25 de mayo de 2022
9 de enero de 2024