Javier Coronado Blazquez

Javier Coronado Blazquez

Doctor en Física Teórica por la Universidad Autónoma de Madrid especializado en Data Science y Machine Learning. Pasé de investigar materia oscura y rayos gamma a ser un adicto a los datos y su visualización. Actualmente, soy parte del equipo de AI & Analytics de Telefónica Tech, trabajando como Data Scientist y formador en transformación digital de empresas.
AI & Data
IA creativa en la empresa: cómo adaptar ChatGPT (y similares) a las necesidades de mi cliente
En el último año, la Inteligencia Artificial Generativa (IAG) ha pasado de tener un interés meramente académico a copar las primeras planas de las noticias mundiales, gracias a la democratización de herramientas como ChatGPT o Stable Diffusion, capaces de llegar al público general con un uso gratuito y una interfaz muy sencilla. Pero, desde el punto de vista empresarial, ¿es esta ola de atención puro hype, o estamos en las primeras etapas de una gran revolución? ¿Es la IAG capaz de generar nuevos e innovadores casos de uso? La era de los LLM (Large Language Models, modelos de lenguaje masivo) La IAG es una rama de la IA centrada en crear contenido nuevo. Podemos considerar la IAG como una nueva etapa de la IA: con estadística tradicional sólo se puede tener un análisis descriptivo y diagnóstico. Con IA (especialmente con técnicas de machine learning o aprendizaje automático), podemos pasar a tener analítica predictiva y prescriptiva, que sea capaz de prever patrones o situaciones y ofrecer recomendaciones o alternativas para afrontarlos. Con IAG, tenemos analítica creativa, capaz no sólo de estudiar los datos existentes sino de generar nueva información. Si bien la IAG se aplica a todas las formas de creatividad humana (texto, audio, imagen, vídeo…), posiblemente su vertiente más conocida son los llamados Large Language Models (LLM, modelos de lenguaje masivos), especialmente ChatGPT de OpenAI, que tiene el honor de ser la App de mayor crecimiento de la historia. Podemos interactuar con ellos empleando nuestro lenguaje natural y no el lenguaje de las máquinas. La IA 'tradicional' (en este campo cualquier cosa con más de 5 años ya es tradicional) sin duda supuso un cambio de mentalidad para las empresas, equivalente a la democratización de la informática en los años 80 y de internet en los 90. Esta transformación digital permite optimizar procesos para hacerlos más eficientes y seguros, y la toma de decisiones basadas en el dato, por mencionar dos de las principales aplicaciones. ¿Tenemos casos de uso equivalentes con IAG? Algunos de ellos, propuestos en estas primeras etapas de la IAG, incluyen: Búsquedas internas de documentación: disponiendo de grandes volúmenes de información no estructurada (texto), se puede consultar en un lenguaje natural información concreta sobre conceptos, estrategias o dudas. Hasta ahora, no disponíamos de mucho más que el Ctrl+F para buscar correspondencias exactas, lo que es poco eficiente, muy proclive a errores, y sólo otorga información fragmentaria. Asistentes virtuales (chatbots): con la precisión y versatilidad alcanzada por los últimos LLMs, los chatbots son capaces de responder de forma mucho más completa a preguntas de usuarios. La principal ventaja de los LLMs es que tienen memoria, y por tanto son capaces de mantener una conversación completa (Q&A), pudiendo incluso retomar desde el último punto de forma natural en el caso de tener que interrumpirla. Esto facilita que la inmensa mayoría de problemas que puedan tener los clientes se resuelvan con gran agilidad, necesitando intervención humana sólo en los más complejos. Incluso, se puede hacer análisis de sentimientos sobre respuestas pasadas, para entender qué estrategias y soluciones han sido las más satisfactorias. Generación de datos sintéticos: a partir de un conjunto de datos privado, podemos engrosar su volumen para disponer de una muestra mayor. Esto es especialmente útil cuando la obtención de datos reales requiere mucho tiempo o recursos. Mediante IAG, no será necesario tener conocimientos avanzados de técnicas estadísticas para hacerlo. Redacción de propuestas: empleando documentos ya existentes, se pueden generar nuevas propuestas de valor alineadas con la estrategia de la compañía, según la tipología de cliente, equipo, tipo de caso de uso, plazos, etc. Resúmenes ejecutivos: también a partir de documentos, o transcripciones de voz (otro de los usos de la IAG), podemos resumir largos y complejos textos, muchas veces de naturaleza técnica o legal, incluso adaptando el estilo del resumen a nuestras necesidades. De este modo, si no tenemos tiempo para asistir a un importante comité, de leer 120 páginas de propuesta o de entender una nueva legislación europea, la IAG podrá resumirnos los puntos más relevantes de forma clara y concisa. Márketing personalizado: la IA 'tradicional' permite el perfilado y segmentación de clientes, lo que facilita el diseño de campañas personalizadas. Mediante IAG, se puede crear márketing a nivel individual, de forma que no haya dos interacciones iguales con cada cliente, y siempre ateniéndose a los valores y estilo de campañas existentes en la compañía. Al igual que con los subtítulos de YouTube generados automáticamente, esto abre la puerta a crear contenido a una escala imposible de manera manual. Reentrenar o adaptar… o ambos Todo esto suena muy bien, pero ¿cómo podemos tener un LLM para nuestra empresa? La opción más evidente es la fuerza bruta: entrenamos uno propio. Lamentablemente, no es casualidad que los mejores LLM vengan de los llamados hyperscalers: OpenAI, Google, Meta, Amazon… entrenar uno de estos modelos requiere una cantidad desorbitada de datos, tiempo y recursos. ◾ Como ejemplo, el entrenamiento de GPT-4 costó unos 100 millones de dólares, una cifra al alcance de muy pocos bolsillos. Por otra parte, como bien nos recuerda ChatGPT-3 cada vez que le preguntamos por algo actual, su entrenamiento se hizo con datos hasta septiembre de 2021, por lo que desconoce nada posterior. No obstante, su sucesor GPT-4 sí incorporó conversaciones con GPT-3 como parte del entrenamiento. Esto provocó que, si un usuario de una compañía le había revelado secretos en el chat de la versión anterior, otro usuario en GPT-4 podía acceder a dicha información simplemente preguntando por ella. A raíz de estos incidentes, muchas empresas han prohibido su uso para evitar fugas de datos confidenciales. Por tanto, si no podemos entrenar nuestro propio modelo de manera nativa, tenemos que adoptar otras estrategias para que el LLM trabaje con nuestros datos y casuística de empresa. Existen dos estrategias, el fine tuning (afinado) y el retrieval-augmented generation (RAG, generación aumentada de recuperación, en una difícil traducción). No existe una mejor que la otra, sino que depende de muchos factores. Fine tuning: como su nombre indica, la idea es afinar el modelo, pero manteniendo su base. Es decir, coger un LLM existente como ChatGPT, y entrenarlo incorporando todos los datos de mi empresa. Aunque puede ser algo costoso, estamos hablando de órdenes de magnitud menos que esos millones de dólares que suponen hacerlo de manera nativa, pues es un pequeño conjunto de entrenamiento en comparación con toda la información que ha engullido el modelo base. RAG: en este caso, lo único que hacemos es crear una base de datos con la información pertinente al cliente, de manera que éste pueda hacer preguntas al LLM sobre esta. Ante una consulta, el LLM buscará en todos estos documentos trozos de información que parezcan relevantes a lo que se ha preguntado, hará un ranking de los más similares, y generará una respuesta a partir de ellos. Su principal ventaja es que no sólo nos dirá la respuesta, sino que podrá indicarnos qué documentos y qué partes son aquellas que ha empleado para crearla, de manera que se pueda hacer una trazabilidad y verificación de la información. ¿Cuál de las dos es más adecuada para mi caso de uso o cliente? Como hemos dicho, depende. Por ejemplo, debemos tener en cuenta el volumen de datos disponible. Si nuestro cliente es una pequeña empresa y sólo va a tener unos cientos o pocos miles de documentos, es difícil hacer un fine tuning satisfactorio (seguramente tengamos overfitting), y será mucho más adecuado el enfoque de RAG. La privacidad también es fundamental Si necesitamos restringir la información a la que empleados de diferentes niveles o departamentos pueden acceder, tendremos que hacer un RAG, en el que según el tipo de acceso diferentes documentos estén disponibles. El enfoque de fine tuning no es adecuado, pues habría una potencial fuga de datos similar a la comentada de GPT. ¿Cómo de versátil e interpretable debe ser nuestro modelo? Este punto es crucial, porque elegir la estrategia incorrecta según el caso de uso puede arruinarlo. Por ejemplo, si queremos que nuestro LLM nos resuma un documento o nos haga un mix entre varios para explicarnos algo, queremos que sea literal y trazable. Los LLM son muy proclives a alucinar, sobre todo cuando le preguntamos algo que desconoce. De este modo, si usamos una estrategia de fine tuning y le pedimos que nos explique algo que no figura en ningún documento, es posible que nos meta una trola y empiece a inventarse cosas. Sin embargo, si tenemos un chatbot para atención al cliente necesitamos que sea muy flexible y versátil, pues debe lidiar con muchas casuísticas diferentes. En este caso, el fine tuning sería mucho más adecuado que el RAG. La tasa de refresco de nuestros datos es asimismo importante Si nos interesa sobre todo tener en cuenta datos pasados, sabiendo que la tasa de nuevos datos va a ser muy baja, puede ser interesante adoptar un fine tuning, pero si queremos ir incorporando información con una alta frecuencia (horas, días), es mucho mejor ir a por un RAG. El problema es que el fine tuning “congela” los datos que entran, por lo que cada vez que quisiéramos incorporar nueva información tendríamos que reentrenarlo, siendo muy poco eficiente (y costoso). Compromiso entre ambos enfoques Existe un compromiso entre ambos enfoques, consistente en hacer un fine tuning para incorporar un gran corpus de información pasada de la empresa o cliente, y sobre ese modelo más versátil y adaptado usar un RAG, para tener en cuenta datos recientes. ◾ Siguiendo el ejemplo del chatbot, esto permitiría tener un asistente virtual capaz de lidiar con un abanico de situaciones basadas en el histórico de incidencias resueltas, y al mismo tiempo tener información actualizada del estado de incidencias abiertas. Una vez tengamos en cuenta todos estos factores, podremos elegir una de las estrategias, o combinarlas, para poder hacer un ChatGPT personalizado en diferentes clientes, generando así una atractiva propuesta de valor con diversos casos de uso. Referencias: https://www.linkedin.com/pulse/rag-vs-finetuning-your-best-approach-boost-llm-application-saha/ https://rito.hashnode.dev/fine-tuning-vs-rag-retrieval-augmented-generation https://neo4j.com/developer-blog/fine-tuning-retrieval-augmented-generation/ https://towardsdatascience.com/rag-vs-finetuning-which-is-the-best-tool-to-boost-your-llm-application-94654b1eaba7 Cyber Security AI of Things IA Generativa como parte de la estrategia y liderazgo empresarial 20 de septiembre de 2023
14 de agosto de 2024
Telefónica Tech
AI & Data
Cómo sobrevivir al FOMO en la era de la IA Generativa
El FOMO ('fear of missing out', 'temor a perderse algo') o la ansiedad que sientes con la IA Generativa no es solo cosa tuya: LinkedIn está diariamente inundado de nuevo contenido, cada semana se lanza el mejor LLM del mundo, todos los hiperescalares parecen ser la única opción sensata para lo que quieres hacer... En este vuelo hipersónico de la IA Generativa (IAG), es difícil distinguir lo disruptivo de lo distractivo, pero no debemos olvidar que la tecnología no es más que una herramienta, y que el centro de esta revolución es lo que se puede hacer y lo que puede resolver, no con qué El FOMO y la velocidad de la información La IAG lleva menos de dos años entre nosotros, desde el lanzamiento de ChatGPT a finales de 2022. Lejos de haber tenido su pico de hype y empezar a decaer, el interés que suscita el tema es cada vez mayor, y parece lejos de tocar techo. Figura 1: Interés desde el 1 de enero de 2023 de búsquedas en Google de “Inteligencia Artificial” (línea roja) y “ChatGPT” (línea azul). Fuente: Google Trends. En lo que llevamos de 2024, es rara la semana en la que no hay un “bombazo” sobre la IAG, ya sea un nuevo modelo, una nueva función de una plataforma, movimientos de fusiones o adquisiciones, descubrimientos inesperados… por ejemplo, en HuggingFace, el principal repositorio público de IAG, tiene ya más de 700.000 modelos, y se añaden más de 40.000 cada mes. Para cualquiera que trabaje en esto, resulta agotador estar al día. De hecho, es muy habitual sentir eso que se conoce como FOMO, un tipo de ansiedad social caracterizado por un deseo de estar continuamente conectado con lo que otros están haciendo. Pero, para desarrollar casos de uso de IAG, ¿es realmente necesario estar hiperconectados, siempre pendientes de la última novedad de todos los actores de la IAG? ¿Acaso podemos quedarnos atrás? Y lo más importante, ¿podemos fracasar en nuestro caso de uso por no haber estado al loro del último grito? La respuesta corta es NO. No debemos obsesionarnos con todas estas novedades, ya que, por muy deprisa que evolucione el campo (aún incipiente y en sus primeros estadios), el desarrollo de un caso de uso de IAG es complejo y requiere tiempo, por lo que es importante centrarse en otros aspectos. Es decir, debemos evitar que el bosque nos impida ver los árboles. Para ello, podemos proponer cuatro consejos. Consejo 1: Algunos casos no son IAG, sino IA 'clásica' Cuando surgió la ola del machine learning, muchas empresas y organizaciones querían desarrollar casos de uso de IA. El problema es que, pensando que se iban a quedar atrás, parecía más importante la función que la herramienta; estaban más preocupadas por poder decir que el caso de uso utilizaba IA que por el caso de uso en sí. Y esto hizo que muchas propuestas realmente no necesitaran IA, sino otras herramientas más establecidas. En muchas situaciones, un análisis estadístico y detallado de los datos, con un cuadro de mando para poder consumir los resultados, cubría perfectamente las necesidades y, en muchos casos, era el primer paso para madurar en la disciplina y afrontar un caso de uso de IA a partir del conocimiento obtenido. Algo similar está pasando ahora: debemos entender que la IAG no sustituye a la IA clásica (no generativa), sino que la complementa, permite hacer cosas que con un modelo clásico no eran posibles. Y es más, existen casos de uso comunes a ambas posibilidades, como puede ser una clasificación de textos, en los que la IA clásica puede tener algunas ventajas aunque no ofrezca un rendimiento tan bueno. Dimensiones como la necesidad de explicabilidad, los recursos computacionales necesarios o las alucinaciones de los modelos de lenguaje (LLM) pueden influir a la hora de desarrollar un caso de uso con IA o IAG. ✅ Conclusión: No todo lo que reluce es oro. Consejo 2: No hay que coger el modelo más grande y nuevo, sino el más adecuado Como hemos comentado antes con el ejemplo del volumen de modelos que hay en HuggingFace, hoy en día hay modelos para todos los gustos. Pero aquí el tamaño importa, y generalmente cuanto más grande es un modelo (al ser redes neuronales, el número de parámetros de la red), mejor rendimiento genérico tiene. Pero este rendimiento es genérico porque se evalúa contra tests conocidos de conocimiento general, como pueden ser preguntas de cultura general, temas especializados, razonamiento lógico… y todo esto está muy bien, pero cuando vamos a desarrollar un caso de uso concreto, necesitaremos adaptar el LLM a nuestros propios datos, donde desconocemos realmente cómo de bien funciona cada modelo. Figura 2: mapa de LLM por tamaño (número de parámetros), reflejando su desarrollador y año. Fuente: Information is Beautiful. Y en este sentido, depende mucho (muchísimo) de lo que queramos hacer. Por ejemplo, los LLM más grandes son más imaginativos y creativos, pero eso los hace más propensos a alucinar. Además, como sugiere la lógica, cuantos más parámetros tenga el modelo, más recursos computacionales serán necesarios, tanto para el entrenamiento (o reentrenamiento) como para la inferencia. De un tiempo a esta parte, se están intentando crear SLM (Small Language Models), es decir, modelos más pequeños. Esto permite un grandísimo abaratamiento en los costes de operación, y posibilita cosas tan interesantes como meterlos en dispositivos como smartphones. Para tareas sencillas, este tipo de modelos es muchísimo más adecuado que un enorme LLM. Decía Alain Prost, 4 veces campeón del mundo de F1, que el objetivo era ganar una carrera a la menor velocidad posible. Adaptando su cita, aquí el objetivo es que el caso de uso funcione con el modelo más pequeño posible. ✅ Conclusión: Más vale maña que fuerza Consejo 3: Lo importante es la metodología, no la tecnología Hemos visto que no hace falta coger el modelo más grande y puntero para que nuestro caso de uso llegue a buen puerto. Pero aún así, con el vastísimo panorama de modelos que hay, ¿cuál debería coger? Y encima, si voy a desarrollar en cloud, ¿qué proveedor escojo? ¿Azure, Google, AWS, IBM…? De nuevo, no debemos obsesionarnos con ninguna de ambas preguntas. Todos los hiperescalares ofrecen soluciones muy similares (y todos presumen de ser los únicos en ofrecerlas), y habrá aspectos no técnicos —financieros, legales, corporativos…— que determinen la mejor elección. En cuanto al modelo, ocurre un poco lo mismo: siempre que sale una nueva versión de GPT, Claude, Llama, Gemini, Mistral… presumen de ser el mejor modelo hasta ahora. Pero ya hemos visto que esa evaluación (incluso aunque nos la creamos) se hace sobre tests genéricos, y pueden no reflejar el rendimiento real para nuestro caso de uso. Así que el modelo concreto que usemos puede ser algo a explorar, pero nunca va a ser crítico. Es mucho más importante centrarse en la metodología: entender bien qué necesidades tiene el caso de uso, qué herramientas podemos usar, qué requisitos de negocio y técnicos existen… y lo demás caerá por su propio peso. Si tenemos un caso de uso difuso, una anarquía del dato, falta de formación, una mala gestión de los recursos…, no importa el modelo o plataforma que usemos, no llegaremos a ningún sitio. ✅ Conclusión: El hábito no hace al monje Consejo 4: Los modelos open source muchas veces son los más adecuados Generalmente, los modelos de pago son mejores que los open source, pero una vez más, esta afirmación es un poco capciosa, ya que “mejor” es difícil de cuantificar. En un caso de uso real, hay que adaptar, integrar y desplegar una solución completa, lo cual puede cambiar el panorama. Cuando nos tocan el bolsillo la cosa se pone seria, y la estimación de costes operacionales puede dispararse con modelos de pago. Por ejemplo, si tenemos una aplicación de IAG sirviendo a miles de usuarios, un modelo de pago cobrará por tokens de entrada y salida. En un modelo open source, solo necesitamos la infraestructura (on premise o cloud), pero no habrá costes asociados por inferencia. Por último, los aspectos éticos, regulatorios y de privacidad son cada vez más importantes. Un modelo open source nos permite tanto el despliegue on premise como realizar fine tunings transparentes. Hiperescalares como Microsoft o IBM ofrecen modelos propios open source, aparte de sus modelos de pago. La mitigación de posibles sesgos es mucho más fácil con modelos open source, ya que controlamos cada etapa de vida del algoritmo; de cara a auditorías y con la aplicación del Reglamento de Inteligencia Artificial (RIA), la transparencia y trazabilidad de los modelos es fundamental. ✅ Conclusión: Compartir es vivir Mi participación en OpenExpo 2024 Como parte de la participación de Telefónica Tech en OpenExpo 2024 tuve ocasión de compartir mi experiencia y conocimiento sobre algunas de las tecnologías de IA que estamos desarrollando e implementando en Telefónica Tech, incluyendo la charla que recojo en este artículo que también puedes ver en este vídeo: Imagen: vecstock / Freepik.
25 de junio de 2024
AI & Data
Algoritmos entre bambalinas: Hollywood y la revolución tecnológica de la IA
Como tantos otros sectores, el panorama del audiovisual se está transformando a una velocidad vertiginosa gracias a la influencia creciente de la Inteligencia Artificial (IA). La convergencia de algoritmos avanzados y la producción cinematográfica digital ha dado lugar a una revolución, desafiando las convenciones tradicionales de la industria del entretenimiento. Este cambio no está exento de tensiones, como lo evidencia la reciente huelga de actores y guionistas que ha sacudido Hollywood, marcando un punto de inflexión en la relación entre la creatividad humana y la automatización. En este contexto, la regulación se presenta como una necesidad ineludible, una medida crucial para equilibrar las posibilidades ilimitadas de la IA con los valores fundamentales de la narrativa cinematográfica y la fuerza laboral creativa. Adentrémonos en los entresijos de esta revolución que ya es una realidad. Luces, cámara…¡y huelga! Hollywood y la transformación digital En 2007 la meca del cine (y series) occidental se sumió en el caos cuando la WGA (Writers Guild of America, el sindicato de guionistas estadounidense) convocó una huelga histórica. La disputa se centró en un escenario emergente: el consumo digital de contenido. La irrupción de plataformas en línea y servicios de streaming (muchos de ellos nuevos jugadores digitales en un tablero analógico), que prometían un nuevo paradigma, desató un conflicto sobre la compensación justa para los guionistas en este nuevo terreno. Los titanes de Hollywood se encontraron atrapados entre las páginas de los guiones y las líneas de código, mientras los guionistas buscaban adaptar sus contratos a la era digital en rápida evolución. Esta huelga de 100 días no solo paralizó la producción, sino que también expuso las grietas en el modelo de negocios tradicional frente a las transformaciones digitales que moldearían el futuro de la industria del entretenimiento. En 2023 vivimos un deja vù: la ruptura de las negociaciones entre el sindicato de actores, SAG-AFTRA, y la Alianza de Productores de Cine y Televisión (AMPTP) desencadena una nueva huelga, la primera de este tipo desde 1980. Las tensiones se intensifican con el parón simultáneo de guionistas que comienza en mayo. La presidenta de SAG-AFTRA, Fran Drescher, acusa a la AMPTP de actuar de manera "insultante e irrespetuosa" y destaca cuatro factores clave de la huelga: la justicia económica, la regulación del uso de la inteligencia artificial, la adaptación a la autograbación y los residuales (pagos adicionales recibidos por el uso continuo de un trabajo después de su estreno inicial, que fueron un punto clave en la huelga de 2007, para reconocer que su producto genera valor mucho después de su lanzamiento inicial). La utilización de “dobles digitales” sin consentimiento explícito es uno de los principales puntos de tensión respecto a la IA. Hubo varios puntos de tensión respecto a la IA. Uno de los principales fue la utilización de “dobles digitales”, en la mayoría de los casos sin un consentimiento explícito. Extras y figurantes reportaban que en muchas ocasiones se les había escaneado como parte de su contrato, sin especificar para qué, encontrándose que no les volvían a contratar porque tenían un modelo digital que utilizar de manera gratuita. SAG-AFTRA demandaba una regulación de esta tecnología, compensando justamente a aquellas personas de las que se generara un doble digital. Del mismo modo, la WGA exigía limitar el uso de modelos de lenguaje de IA (LLMs, Large Language Models) como ChatGPT para prescindir de guionistas reales. Todo esto suena a ciencia ficción, pero ya es el día a día de decenas de miles de profesionales del sector audiovisual, que ven peligrar sus trabajos por emplear la IA de manera desregulada e indebida. No cabe duda de que este no es más que el comienzo de un largo camino hacia el entendimiento y un nuevo modelo productivo que permita la transformación digital de manera humana, sostenible y ética. Veamos a continuación algunos ejemplos recientes de la utilización de IA en cine y televisión. We’re living in the future La IA siempre ha formado parte del imaginario del cine, y la ciencia ficción presenta cientos de películas con esta temática, desde Metrópolis o Blade Runner hasta Terminator y Juegos de Guerra. En los últimos años, las películas se han ido volviendo más realistas, ya que lo que parecía pura fantasía empieza a ser percibido como una realidad ya existente o muy próxima a serlo. No hay más que ver cómo dos de las películas más aclamadas por la crítica en 2023, The Creator y Misión: Imposible. Sentencia Mortal, tienen la IA como tema central (de hecho, Joe Biden reconoció que esta última le motivó a aprobar la nueva normativa estadounidense sobre IA. Black Mirror planteó un gran dilema que parecía predecir lo que pasó más tarde con la huelga de guionistas. En el mundo de la pequeña pantalla, la oscurísima Black Mirror planteó un gran dilema que parecía predecir (una vez más) lo que pasó más tarde con la huelga. ¡Spoiler alert! En su primer capítulo de la sexta temporada, Joan is awful, una plataforma de streaming -sospechosamente similar a Netflix- genera con IA una serie en tiempo casi real narrando el día de una usuaria, pero protagonizada por una doble digital de la actriz Salma Hayek. Al ver expuesta de esta manera su intimidad, la única manera de llamar la atención de la plataforma es que la usuaria haga cosas extremadamente ridículas y humillantes, para que la propia Salma Hayek se queje de aparecer en pantalla realizando estas acciones con las que no está de acuerdo y por las que no está cobrando. Vista la sección anterior, ¿nos suena? Pero no hace falta que hablemos de películas o series sobre la IA, porque ésta ya las crea (parcialmente, aunque es cuestión de tiempo que lo pueda hacer por completo), en general con cierta polémica. Disney ha tomado claramente la delantera en este campo, ya desde 2020 con The Mandalorian y el rejuvenecimiento de Mark Hamill por deepfake. De forma más reciente, la serie Loki de Marvel tiene arte promocional generado con IA, y Secret Invasion, también de Marvel, emplea IA en sus títulos de crédito, con un resultado algo cuestionable (aunque defendido por los showrunners). Por último, la película de Disney+ Prom Pact usó extras generados por IA en una escena, con un acabado más que cuestionable en este caso. Además, estos dobles digitales eran sobre todo personas de etnia no blanca, eliminando por tanto oportunidades de trabajo para personas afroamericanas o asiáticas, ahondando más aún en el complejo aspecto ético de la IA sin regulación. Una aplicación menos polémica de la IA en el cine es la posibilidad de poder restaurar e incluso rescatar películas prácticamente perdidas, especialmente celuloides anteriores a 1930. Si bien las técnicas tradicionales son insuficientes, la IA demuestra ser capaz de llegar más allá y poder compartir con el público un cine que no podría existir de otro modo. Por ejemplo, el megadocumental Get Back (también de Disney+) restauró mediante IA metraje en muy mal estado, especialmente en cuanto a calidad de sonido. De este modo, se pudo aislar cada instrumento por separado, llegando a un excelente estándar de audio. Del mismo modo, estas técnicas han servido para que en pleno 2023 vivamos el lanzamiento de una nueva canción de The Beatles, Now and Then, al poder reparar la voz de John Lennon de una grabación casera de 1977, y que suene como si estuviera grabada en estudio. Una revolución inevitable, una regulación inexcusable Finalmente, la huelga de SAG-AFTRA llegó a su fin con la ratificación de un nuevo acuerdo en diciembre de 2023. En este, hay 5 páginas enteras dedicadas únicamente al papel de la IA, estipulando los límites éticos y legales, y requiriendo tanto un consentimiento explícito como una remuneración justa para las personas afectadas por la aplicación de estas herramientas. Que la IA ha llegado para quedarse está claro. Si miramos por el retrovisor, nos damos cuenta de que, aunque parezca que ChatGPT ya lleva con nosotros toda la vida, se lanzó en noviembre de 2022. Estamos aún en los primeros compases de lo que promete ser una nueva revolución tecnológica que transforme por completo el sector audiovisual. En este fascinante cruce entre arte y algoritmos, recordamos las palabras de Arthur C. Clarke: “Cualquier tecnología suficientemente avanzada es indistinguible de la magia”. Y por algo se habla siempre de “la magia del cine”. La innovación siempre irá por delante de nuestra inercia como seres humanos, por lo que es normal que haya tensiones al comienzo de cualquier cambio de paradigma. No hay más que recordar que el clásico de 1982 Tron, pionero en el uso de CGI (Computer Generated Images), no pudo ser nominado al Oscar a Mejores Efectos Visuales porque la Academia de Cine consideró que “usar un ordenador es hacer trampa”. En un año en el que hemos tenido estas huelgas históricas del sector audiovisual con gran foco en el impacto de la IA, hemos podido ver las primeras aplicaciones comerciales de esta tecnología, no exenta de cuestiones éticas y problemas legales. En este sentido, una regulación de la IA clara y posicionada a favor de los trabajadores humanos es completamente necesaria, para adaptarnos a este nuevo paradigma al igual que nos adaptamos hace más de 15 años a la llegada de las plataformas de streaming y el contenido 100% digital. La revolución, próximamente en los mejores cines. Referencias: SAG-AFTRA’s new contract hinges on studios acting responsibly with AI - The Verge Eduardo Grojo: ¿Quiere la IA destruir el cine? (Telos 123 Especial Inteligencia Artificial) Marvel’s “Secret Invasion” AI Art Sparks Controversy in Opening Credits | by Jim the AI Whisperer | The Generator | Medium AI movie restoration - Scarlett O’Hara HD - deepsense.ai Actors Approve SAG-AFTRA Deal That Ended 118-Day Strike (people.com) * * * AI of Things La Inteligencia Artificial en las películas de ciencia ficción: un patrón recurrente de fascinación y terror 12 de mayo de 2022
29 de enero de 2024
AI & Data
Big Data en investigación básica: de las partículas elementales a los agujeros negros
El paradigma Big Data ha tenido una profunda penetración en todos los estratos de nuestra sociedad, cambiando la manera en la que interactuamos entre nosotros y se llevan a cabo proyectos tecnológicos. La investigación básica, concretamente en el campo de la física, no ha sido ajena a este cambio en las últimas dos décadas y ha sabido adaptarse para incorporar este nuevo modelo a la explotación de datos de experimentos punteros. Hablaremos aquí del impacto de Big Data en tres de los mayores hitos de la física moderna. (1) Large Hadron Collider: el precursor del Big Data Una de las palabras más de moda en 2012 fue “bosón de Higgs”, esa misteriosa partícula que nos dijeron que era la responsable de la masa del resto de partículas conocidas (más o menos) y que había sido descubierta ese mismo año. Pero en cuanto a atracción mediática, el foco se centró en el instrumento que permitió dicho descubrimiento, el Gran Colisionador de Hadrones, o LHC por sus siglas en inglés, del Consejo Europeo de Investigación Nuclear (CERN). El LHC es un acelerador de partículas, y es probablemente la máquina más compleja construida por el ser humano, con un coste de unos €7,500 millones. Un anillo de 27 km de longitud enterrado a una profundidad media de 100 metros bajo la frontera entre Suiza y Francia, que emplea electroimanes superconductores para acelerar protones hasta el 99.9999991% de la velocidad de la luz (es decir, en un segundo dan más de 11,000 vueltas al anillo). Colisionando protones a estas delirantes velocidades, podemos crear nuevas partículas y estudiar sus propiedades. Una de estas partículas fue el bosón de Higgs. Para asegurarse de que los protones, que son partículas elementales, colisionan entre sí, en lugar de emplearlos uno a uno se lanzan grandes paquetes, lo que resulta en unos 1000 millones de choques por segundo. Todas estas colisiones son registradas como eventos únicos. De una sola de ellas se pueden producir miles de partículas individuales, que son caracterizadas en tiempo real (muy inferior al milisegundo) por detectores, recogiendo información como trayectoria, energía, momento, etc. Una enorme cantidad de datos Como nos podemos imaginar, esto produce una enorme cantidad de datos. Concretamente, unos 50,000-70,000 TB al año de datos en bruto. Y eso sólo de los detectores principales, ya que existen otros experimentos secundarios en el LHC. Al no operar todos los días del año, genera una media de 200 o 300 TB de datos; un volumen complicado -pero factible- de manejar hoy en día. El problema es que el LHC entró en operación en 2008, cuando Big Data era un concepto muy novedoso, por lo que hubo mucho desarrollo de tecnología ad hoc. No es la primera vez, ya que Internet mismo nació en el CERN, con la World Wide Web. En 2003 se estableció la Worldwide LHC Computer Grid (WLCG), una red formada por 170 centros de cálculo en 42 países, con un total de 250,000 núcleos disponibles que permiten más de 1,000 millones de horas de computación anuales. Cada uno de los nodos de esta red pueden estar dedicados al almacenamiento, procesamiento o análisis de los datos. Según las características técnicas, cada uno de los nodos de esta red pueden estar dedicados al almacenamiento, procesamiento o análisis de los datos. Para asegurar la buena coordinación entre ellos, se optó por un sistema jerarquizado en tres niveles: Tier 0 en el CERN, Tier 1 en varios sitios regionales, y Tier 2 en centros con muy buena conectividad entre ellos. Centro de control del CERN / Foto: Brice, Maximilien, CERN España acoge varios de estos centros de computación, tanto de Tier 1 como Tier 2, situados en Barcelona, Cantabria, Madrid, Santiago de Compostela y Valencia. Uno de los aspectos que ha fomentado este gran volumen de datos es la aplicación de algoritmos de machine learning e inteligencia artificial para buscar física más allá de lo conocido, pero eso es una historia para otro día… AI OF THINGS Mujeres que cambiaron las Matemáticas 9 de marzo de 2023 (2) James Webb Space Telescope: el presente y futuro de la astrofísica El LHC explora los ladrillos básicos que constituyen nuestro Universo: las partículas elementales. Ahora vamos a viajar al extremo opuesto, estudiando estrellas y galaxias enteras. Exceptuando los espectaculares avances en astronomía de neutrinos y ondas gravitacionales de los últimos años, si queremos observar el Universo lo haremos con un telescopio. Debido a la rotación de la Tierra, un telescopio “tradicional” sólo podrá observar de noche. Además, el efecto atmosférico reducirá la calidad de las imágenes cuando busquemos nitidez en señales muy pequeñas o débiles. ¿No sería maravilloso poder tener un telescopio en el espacio, donde desaparecen estos factores? Eso mismo pensó la NASA a finales de los años 80, lanzando en 1995 el telescopio espacial Hubble, que ha producido (y sigue produciendo) las imágenes más espectaculares del cosmos. La NASA se planteó hace un par de décadas cuál era el siguiente paso, y comenzó a diseñar su sucesor, el James Webb (JWST), lanzado el 25 de diciembre de 2021 y actualmente en fase de calibración. Con un gran número de innovaciones y patentes técnicas, se decidió situar al JWST en el punto de Lagrange L2, 4 veces más lejos de nosotros que la Luna. A tal distancia, es completamente inviable enviar una misión tripulada a efectuar reparaciones, como sucedió con el Hubble, que orbita a “sólo” 559 km de la superficie terrestre. Espejo principal de telescopio James Webb / Image Credit: NASA/MSFC/David Higginbotham Uno de los mayores retos de diseño era la transmisión de los datos. Aunque el JWST lleva unos escudos para aislar térmicamente al telescopio, al estar tan alejado de la magnetosfera terrestre el disco duro que registra los datos debe ser un SSD (para asegurar la velocidad de transmisión) con gran protección contra la radiación solar y rayos cósmicos, puesto que debe ser capaz de operar continuamente durante al menos 10 años. Esto compromete la capacidad de dicho disco duro, que tiene unos modestos 60 GB. Con el gran volumen de datos recogidos en observaciones, tras unas 3 horas de mediciones se puede llegar al límite de dicha capacidad. Está previsto que el JWST realice dos descargas de datos al día, aparte de recibir instrucciones sobre el apuntado y lecturas de sensores de los distintos componentes, con una velocidad de transmisión de unos 30 Mbit/s. Comparado con las cifras del LHC puede parecer insignificante, pero no debemos olvidar que el JWST orbita a 1,5 millones de kilómetros de la Tierra, en un entorno tremendamente hostil, con temperaturas de unos 30°C en el lado que mira al Sol y -220°C en lado en sombra. Un prodigio técnico sin parangón produciendo más de 20 TB de datos brutos al año, que tendrán ocupados durante años a la comunidad astrofísica, que ya tiene preparados robustos y sofisticados algoritmos de machine learning para explotar todos estos datos. AI of Things Mundos infinitos, mundos realistas: generación procedural e inteligencia artificial en videojuegos 22 de agosto de 2022 (3) Event Horizon Telescope: Big Data “de toda la vida” Tanto el LHC como el JWST se caracterizan por transmitir de forma rápida y eficiente sus datos para ser procesados. Sin embargo, a veces no es tan fácil conseguir las “5 rayitas de WiFi”. ¿Cuántas veces nos hemos frustrado cuando un vídeo de Youtube se quedaba congelado y cargando por nuestra mala conexión? Imaginemos que en vez de un simple vídeo necesitamos descargar unos 5 PB de datos. Con este problema se topó el Event Horizon Telescope (EHT), que en 2019 publicó la primera foto de un agujero negro. Este instrumento es en realidad una red de siete radiotelescopios en todo el mundo (uno de ellos en España), que unieron fuerzas para realizar una observación simultánea del agujero negro supermasivo en el centro de la galaxia M87 durante 4 días en 2017. A lo largo de las observaciones, cada telescopio generó unos 700 TB de datos, lo que resultó en un total de 5 PB de datos dispersos por tres continentes. El reto era combinar toda esta información en un solo lugar para su análisis, que se decidió centralizar en Alemania. Al contrario que en el LHC, no existía la infraestructura necesaria para transferencia de datos a ese nivel, ni merecía la pena desarrollarla al ser un caso de uso puntual. Por tanto, lo que se decidió fue transportar físicamente los discos duros por vía aérea, marítima y terrestre. Uno de los radiotelescopios estaba situado en la Antártida, y hubo que esperar al verano para que el deshielo parcial permitiera tener acceso físico a sus discos duros. La investigadora Katie Bouman (MIT), que dirigió el desarrolló del algoritmo para obtener la foto del agujero negro con el EHT, posa orgullosa con los discos duros del proyecto En total, se transportó media tonelada de soportes de almacenamiento, que fueron procesados y analizados hasta generar la conocida imagen de menos de 1 MB. Explicar la técnica necesaria para llegar a eso nos ocuparía varios posts individuales. Lo importante en este caso es que, en ocasiones, es más importante ser pragmático que hipertecnológico. Aunque nuestro mundo haya cambiado radicalmente en tantos aspectos gracias al Big Data, a veces merece la pena dar un toque vintage a nuestro proyecto e imitar a esos observatorios de hace un siglo que transportaban enormes placas fotográficas desde los telescopios a universidades, para ser debidamente estudiadas y analizadas. Imagen de apertura: vista polarizada del agujero negro de M87. Las líneas marcan la orientación de la polarización, que está relacionada con el campo magnético que hay alrededor de la sombra del agujero negro. / Imagen: EHT Collaboration
3 de abril de 2023
AI & Data
Fantasmas en la máquina: ¿sufre alucinaciones la Inteligencia Artificial?
En los últimos tiempos, herramientas de generación de contenido por Inteligencia Artificial (IA) como ChatGPT o Midjourney han suscitado una gran cantidad de titulares. En un primer vistazo, podría incluso parecer que las máquinas “piensan” como los seres humanos a la hora de entender las instrucciones que se les dan. Sin embargo, detalles que son elementales para un ser humano resultan completamente erróneos en estas herramientas. ¿Es posible que los algoritmos estén sufriendo “alucinaciones”? Ciencia y (en ocasiones) ficción 2022 fue el año de la Inteligencia Artificial: entre otras cosas, vimos la democratización de la generación de imágenes a partir de texto, un premio Princesa de Asturias y el mundo se volvió loco hablando con una máquina que tenía cuerda para rato: ChatGPT, de OpenAI. Aunque no es el objetivo de este artículo explicar cómo funciona esta herramienta, como en cambio sí se esboza en Inteligencia Artificial en la ficción: The Bestiary Chronicles, de Steve Coulson (spoiler: escrito por ella misma), podemos decir que, en resumen, sí intenta imitar a una persona en una conversación cualquiera. Con el aliciente de que podría ser capaz de responder a cualquier pregunta que le hagamos, desde qué tiempo hace en California en octubre a defender o criticar el materialismo dialéctico en un ensayo (y afrontaría ambas posturas con la misma confianza). ¿Por qué navegar por unas pocas páginas buscando una información concreta cuando simplemente podemos preguntar de forma natural? Algo parecido sucede con algoritmos de generación de imágenes mediante IA, como Midjourney, Dall-e, Stable Diffusion o BlueWillow. Estas herramientas son similares a ChatGPT, ya que toman como input un texto, creando imágenes de alta calidad. Ejemplos de consecuencias de una Inteligencia Artificial que "alucina" Dejando a un lado el crucial aspecto ético de estos algoritmos —algunos de los cuales ya han recibido demandas por emplear sin permiso contenido de pago para ser entrenados— el contenido que generan en ocasiones podría pasar por real, pero solo en apariencia. Por ejemplo, Podemos pedirle que imagine Los Simpson como una sitcom de los años 80. En efecto, todo parece perturbadoramente real, aunque esas imágenes nos persigan en nuestras pesadillas. O que genere imágenes de una fiesta. En un primer vistazo no sabríamos decir si son reales o no, pues parecen fotos con algún filtro de Instagram o tipo Polaroid. Sin embargo, como anticipa el titular de la noticia, en cuanto empezamos a mirarlas con más detenimiento vemos detalles que no nos cuadran del todo: bocas con más dientes de la cuenta, manos con 8 dedos, extremidades que salen de lugares inesperados… ninguna de estas falsas fotos supera un examen visual pormenorizado. La inteligencia artificial aprende patrones y los puede reproducir, pero sin entender lo que está haciendo. Esto es debido a que, en el fondo, lo único que hace la IA es aprender patrones, pero sin entender realmente qué está viendo. De modo que si le entrenamos con 10 millones de imágenes de personas en fiestas, reconocerá muchos patrones: la gente suele estar hablando, en posturas diversas, con vasos en la mano, posando con otra gente… pero es incapaz de entender que un ser humano tiene 5 dedos, por lo que a la hora de crear una imagen con alguien sujetando un vaso o una cámara, simple y llanamente “se lía”. Pero quizás le estemos pidiendo demasiado a la IA con las imágenes. Si hay alguien que tenga el dibujo como afición sabrá lo complicado que es dibujar manos realistas sujetando objetos. Foto: Ian Dooley / Unsplash ¿Qué hay de ChatGPT? Si es capaz de escribir un artículo para este blog, puede que no cometa errores así. Y, sin embargo, ChatGPT es tremendamente fácil de engañar, lo cual no es especialmente relevante. Pero también es muy fácil que nos engañe sin que nos demos cuenta. Y si los resultados de una búsqueda web van a depender de ello, es mucho más preocupante. De hecho, cientos de personas en todo el mundo han puesto a prueba a ChatGPT en exámenes de diversa índole: desde tests de educación infantil hasta exámenes de universidad, pasando por pruebas de acceso. En España, se le sometió a la prueba de Historia de la EVAU (la antigua Selectividad), en la que sacó un aprobado raspado. “Respuestas ambiguas”, “se excede a otros temas sin relación”, “reiteraciones circulares”, “incompleto”… son algunos de los comentarios que los correctores profesionales dieron a sus respuestas. Algunos ejemplos: Si le preguntamos cual es el país más grande de América Central, nos puede decir de forma muy creíble que es Guatemala, cuando en realidad es Nicaragua. También puede confundir dos conceptos antagónicos, por lo que, si quisiéramos entender las diferencias entre ambos, nos estaría confundiendo. Si, por ejemplo, empleáramos esta herramienta para saber si podemos comer cierta familia de alimentos sufriendo diabetes y nos diera la respuesta equivocada, tendríamos un problema muy serio. Si le pedimos que genere un ensayo y cite sendos papers sobre el tema, es muy posible que mezcle artículos que existen con otros inventados, sin una manera trivial de detectarlos. O si le preguntamos por un fenómeno científico que no existe, como “electromagnón cicloidal invertido”, se inventará una retorcida explicación acompañado de artículos completamente inexistentes que nos hará incluso dudar de si tal concepto en realidad sí que existe. Sin embargo, una búsqueda rápida en Google nos habría revelado rápidamente que el nombre es un invent. Es decir, a todos los efectos, ChatGPT está sufriendo lo que se llama “alucinación de IA” (IA hallucination), un fenómeno que remeda las alucinaciones en el ser humano, en el que se comporta de forma errática y asevera como válidos enunciados completamente falsos o irracionales. AI of Things Mundos infinitos, mundos realistas: generación procedural e inteligencia artificial en videojuegos 22 de agosto de 2022 ¿Alucinan los androides con ovejas eléctricas? Entonces, ¿qué está pasando? Como hemos dicho antes, el problema es que la IA es tremendamente inteligente para algunas cosas, pero terriblemente estúpida para otras. ChatGPT se lleva muy mal con la mentira, la ironía y demás formas de retorcer el lenguaje. Cuando le preguntamos cómo llegaron los dinosaurios a construir su avanzada civilización en el Cretáceo y qué pruebas tenemos hoy en día, no cuestionará la validez del punto de partida, simplemente empezará a desbarrar. El problema entonces está en tener un espíritu crítico y distinguir lo que es real de lo que no (en cierta manera, como sucede hoy día con las fakenews). En resumen, la IA no dará su brazo a torcer: Si la pregunta que le hacemos es directa, concisa y real, nos dará una muy buena respuesta. Pero si no, se inventará una respuesta con igual confianza. Al preguntarle por la letra de “Like a Rolling Stone” de Bob Dylan, nos presenta la letra completa sin ningún problema. Pero si nos equivocamos de Bob y le afirmamos que dicha canción es de Bob Marley, se sacará de la manga una canción completamente nueva. Un ser humano cuerdo respondería “no sé qué canción es esa”, “¿esa no es de Dylan?”, o algo similar. Pero la IA carece de ese entendimiento básico de la pregunta. Como apunta Gary Marcus, experto en lenguaje e IA, “los sistemas actuales sufren problemas de composicionalidad, son incapaces de entender un todo en función de sus partes”. Plataformas como Stack Overflow, foro de consultas de dudas de programación y tecnología, ya han prohibido esta herramienta para generar respuestas automáticas, pues en muchos casos su solución es incompleta, errónea o irrelevante. Y eso que OpenAI tiene a cientos de programadores explicando paso por paso soluciones para crear un conjunto de entrenamiento para la herramienta. El fenómeno de la alucinación en Inteligencia Artificial no se entiende del todo. A un nivel fundamental, la alucinación en Inteligencia Artificial no se entiende por completo. Esto es en parte debido a que los algoritmos que hay por detrás son sofisticadas redes neuronales de deep learning. Aunque son extremadamente complejas, en el fondo no es más que una red de billones de “neuronas” individuales, que se activan o no dependiendo de parámetros de entrada, imitando el funcionamiento del cerebro humano. Es decir, álgebra lineal, pero a lo bestia. CYBER SECURITY Inteligencia Artificial, ChatGPT y Ciberseguridad 15 de febrero de 2023 Se trata de descomponer un problema muy complicado en billones de problemas triviales. La gran ventaja es que nos ofrece respuestas increíbles una vez la red está entrenada, pero con el coste de no tener ni idea de qué está pasando internamente. Sirva como ejemplo un estudio de Nature en el que una red neuronal era capaz de distinguir si un ojo era de una persona de sexo masculino o femenino, a pesar de que desconocemos diferencias anatómicas entre ambos O un ejemplo potencialmente muy peligroso, en el que con una sola foto de la cara clasificaba a personas como heterosexuales u homosexuales. ¿Quién vigila al vigilante? Entonces, si no somos capaces de entender qué es lo que está sucediendo entre bambalinas, ¿cómo podemos diagnosticar la alucinación, y cómo podemos evitarla? La respuesta corta es que ahora mismo no podemos. Y eso es un problema, pues la IA está cada vez más presente en nuestro día a día. Conseguir un trabajo, que un banco nos conceda un crédito, verificar nuestra identidad en la red o que el gobierno nos considere una amenaza son tareas cada vez más y más automatizadas. Por tanto, si nuestra vida va a tener una relación tan íntima con la IA más nos vale asegurarnos de que sabe lo que está haciendo. Otros algoritmos de generación de texto y clasificación de imágenes tuvieron que ser desactivados, pues resultaron ser neonazis, racistas, machistas, homófobos… y esto lo aprendieron de sesgos humanos. En una suerte de relato de Asimov, imaginemos que, en un intento por hacer la política “objetiva”, dejáramos que una IA tomara las decisiones de gobierno. Podemos imaginar lo que sucedería entonces. Aunque existe gente que apunta a un problema de falta de datos de entrenamiento como causa de las alucinaciones, no parece ser el caso en muchas situaciones. Quizás en el futuro cercano una máquina sea capaz de realmente entender cualquier pregunta. Quizás no. De hecho, estamos llegando a un punto en el que agotar la datasfera – el volumen de datos relevantes disponible – empieza a ser vislumbrado en el horizonte. Es decir, que ya no tendremos mucho más que mejorar por aumentar el conjunto de entrenamiento. La solución entonces puede que tenga que esperar a una próxima revolución en los algoritmos, una nueva aproximación al problema que ahora mismo nos resulte inimaginable. Puede que esta revolución venga de la mano de la computación cuántica. Quizás en el futuro cercano una máquina sea capaz de realmente entender cualquier pregunta. Quizás no. Es muy difícil y osado hacer predicciones tecnológicas a largo plazo. Al fin y al cabo, el New York Times escribía en 1936 que sería imposible salir de la atmósfera terrestre, y 33 años después, Neil Armstrong caminaba sobre la luna. Quién sabe, puede que en unas pocas décadas sea la IA la que diagnostique por qué los seres humanos “alucinamos”… Referencias: https://www.unite.ai/preventing-hallucination-in-gpt-3-and-other-complex-language-models/ https://nautil.us/deep-learning-is-hitting-a-wall-238440/ https://elpais.com/tecnologia/2018/01/14/actualidad/1515955554_803955.html https://medium.com/analytics-vidhya/what-happens-when-neural-networks-hallucinate-9bd0d4594943 Foto de apertura: Pier Monzon / Unsplash
20 de febrero de 2023
AI & Data
Entrega en 10 minutos: cómo la Inteligencia Artificial optimiza las rutas de reparto
Hoy en día, la rapidez e inmediatez es una necesidad para casi cualquier empresa, especialmente para aquellas del sector logístico dedicadas al transporte y entrega de mercancías. Debido al gran volumen de pedidos, es imprescindible intentar optimizar todo el proceso, incluyendo el reparto físico, e incluso reaccionar en tiempo real a posibles imprevistos. Esto es posible con la plataforma Artificial Intelligence of Things (AIoT), que combina Big Data e Inteligencia Artificial. La analítica como herramienta de planificación ¿Cuántas veces hemos cogido el coche y nos hemos encontrado con un atasco inesperado en la ciudad? Especialmente en hora punta o si hay algún evento en la zona, es muy posible que un trayecto de 10 minutos se convierta en un frustrante toma y daca de media hora. Imaginemos ahora que en vez de ir del punto A al punto B tuviéramos que estar constantemente desplazándonos por la ciudad, como sería el caso de una empresa de transporte que realice reparto de mercancía. En esta situación, posibles retrasos se irían acumulando sucesivamente, llegando a afectar gravemente a nuestra planificación logística. Podríamos fantasear con remedar películas como el remake de The Italian Job (2003), donde, para atravesar la ciudad en el menor tiempo posible, hackean los semáforos de tal forma que puedan ponerse en verde cuando lo necesitamos. El reverso oscuro de esta idea también la encontramos en el cine: en La Jungla 4.0 (2007), un ciberterrorista paraliza varias ciudades dejando en verde todos los semáforos simultáneamente, creando cientos de accidentes. Smart Mobility para optimizar rutas de reparto Manteniéndonos dentro de la legalidad, existen distintas maneras de intentar optimizar nuestras rutas, tanto en tiempo real como para predicciones de posibles retrasos, con la llamada Smart Mobility. El primer paso si queremos trabajar en tiempo real es sensorizar nuestra flota de reparto, con el llamado Internet of Things (IoT). Los sensores IoT permite conocer en cada momento el estado de toda la flota de vehículos y tener una trazabilidad total y tener conocimiento en tiempo real de cualquier incidencia En general, estos sensores se conectan de forma sencilla y no invasiva al conector OBD (On-Board Diagnostics) del vehículo. De esta manera, podremos conocer en cada momento el estado de toda nuestra flota y tener una trazabilidad total. Si un vehículo de reparto se desvía de la ruta, se queda sin batería, sufre una avería o excede la velocidad máxima el sistema mandará una alerta inmediata. En los últimos años los costes de esta infraestructura IoT se ha reducido drásticamente. Hoy en día, los sensores en sí, la conexión a la red y la plataforma de procesamiento de la información resultan muy asequibles a nivel empresarial, con soluciones paquetizadas de los principales proveedores de servicios Cloud. Seguimiento y localización en tiempo real de cualquier mercancía en ruta Todo esto, además, con los máximos estándares de seguridad y privacidad, empleando tecnologías como Blockchain. Con ello, podremos tener un seguimiento y localización en tiempo real de cualquier mercancía en su ruta, incluyendo como condiciones ambientales (humedad, temperatura, presión, vibraciones…) con alertas en caso de exceder ciertos parámetros, así como detectar una posible manipulación o apertura. El siguiente reto es planificar la ruta para cada uno de esos vehículos de reparto. Esto es posible gracias a la combinación de IoT e Inteligencia Artificial (IA) en la plataforma Artificial Intelligence of Things (AIoT). Combinando los datos de sensores IoT con la analítica avanzada de la IA, se tendrán en cuenta factores económicos, operativos y energéticos para aumentar la eficacia operativa. La ruta óptima (es decir, aquella que suponga menor tiempo/consumo de combustible), no tiene por qué ser la más corta en distancia. Por ejemplo, si existen peajes puede que la ruta con menor coste global sea una que suponga tomar un pequeño desvío para no emplear esa vía de pago. A la hora de asignar repartos a los diferentes vehículos y determinar el mejor itinerario, la IA tendrá en cuenta parámetros como la combinación de los paquetes a entregar, plazos temporales de entrega o recogida, características de los productos, volumen de carga, tipo de vehículo e información de sus sensores, etc. Cuantos más datos de calidad tengamos mejor será la predicción que pueda hacer la inteligencia artificial, pues empleará más información para tomar sus decisiones. Todos estos datos son internos, es decir, información generada por la propia compañía. Sin embargo, podemos enriquecerlos incorporando fuentes externas. Este nuevo conocimiento puede ser crítico a la hora de planificar nuestra ruta. En general, cuantos más datos tengamos (siempre que sean pertinentes y de calidad), tanto en variedad como en extensión, mejor será la predicción que pueda hacer la Inteligencia Artificial, pues empleará más información para tomar sus decisiones. Por ejemplo, podemos añadir información meteorológica, para prever si va a haber una gran tormenta de nieve o lluvias torrenciales que potencialmente afecten a la cadena logística. En tal caso, la ruta óptima en cuanto a tiempo puede suponer un gran desvío sobre la ruta base. Otra fuente externa importante es aquella referente a calendarios, tanto de festivos como de eventos o incidencias (cortes de calles o carreteras por eventos deportivos, manifestaciones, festivales, etc.). Finalmente, datos estadísticos de tráfico pueden ser empleados para predecir atascos, según la geografía, época del año, hora… Así, la IA diseñará la ruta óptima teniendo en cuenta todas estas condiciones de contorno. Aún con todo, esto sólo nos permite planificar a priori nuestra ruta, pero no podremos reaccionar en tiempo real a imprevistos. ¿O sí? Los reflejos de la IA Imaginemos ahora que tenemos nuestro itinerario perfectamente diseñado y optimizado, teniendo en cuenta todos los factores pertinentes. Ahora bien, si hubiera un accidente que bloqueara una calle, o un gran atasco que no esperábamos, sufriríamos un retraso imprevisto. ¿Hay manera de reaccionar a esto en tiempo real? Aquí entran en juego servicios como Smart Steps de Telefónica. Con esta tecnología, es posible geolocalizar los dispositivos móviles, bien por la ubicación en base a la red móvil o a la red WiFi. Esto permite, por ejemplo, ver si una tienda o una calle está muy concurrida ahora mismo, analizando los patrones de movimiento de los dispositivos individuales. Siempre con unos datos anonimizados, ya que sólo son relevantes en conjunto, se puede calcular la afluencia, usando tanto datos en streaming como empleando el histórico de datos. Esto también permite estimar la densidad de tráfico en tiempo real. Por ejemplo, si existe un gran embotellamiento Smart Steps detectará cómo sendos dispositivos se desplazan a trompicones por la calzada, muy lentamente, generando una alerta de atasco. Con toda esta información, la IA puede actualizar en tiempo real la planificación, es decir, tener capacidad prescriptiva. Por ejemplo, imaginemos que estamos en un núcleo urbano haciendo unas entregas en el barrio A, pero dentro de un rato nos desplazaremos al barrio B. La principal ventaja frente a la reacción de un ser humano es que la IA posee toda la información disponible, y por tanto va a tomar una mejor decisión. Si en la ruta óptima precalculada ha ocurrido un accidente que ha generado un atasco, la IA empleará toda esta información en tiempo real para diseñar un nuevo itinerario on the go, modificar horas de entrega, priorizar el orden, mandar un mensaje al cliente final con posibles actualizaciones, etc. En resumen, la plataforma AI of Things ofrece un valor diferencial a cualquier empresa que busque aumentar la eficacia operativa de sus procesos logísticos, teniendo una trazabilidad completa de su flota de vehículos, una optimización de las rutas de reparto y un sistema de alertas en tiempo real ante posibles imprevistos.
26 de septiembre de 2022
AI & Data
Mundos infinitos, mundos realistas: generación procedural e inteligencia artificial en videojuegos
En este post hablaremos sobre cómo crear automáticamente entornos realistas en mundos virtuales. Usaremos como ejemplo el videojuego No Man’s Sky, del estudio Hello Games, que en 2016 creó galaxias y planetas enteros a escala real con un simple algoritmo, todos ellos enteramente visitables y diferentes. Por si esto pareciera poco, podemos añadir inteligencia artificial a la ecuación, lo que supondrá una revolución nunca vista en el mundo del videojuego. Infinitos monos, infinitos mundos Un famoso experimento mental conocido como el “teorema del mono infinito” dice que, si ponemos a un número infinito de monos a teclear en un ordenador un tiempo infinito, en algún momento uno de ellos escribirá el Quijote. Por puro y simple azar. Cualquier libro, incluso la opus magna de Cervantes, no deja de ser una cadena muy larga compuesta por un número finito de caracteres, como son las letras del alfabeto. Dicho de otra manera, en un tiempo infinito, todo puede y debe ocurrir. Nos podemos preguntar si este experimento es extrapolable a otro tipo de contenido. Una aproximación viene en forma de lo que se conoce como generación procedural. Es decir, partiendo de un algoritmo lo suficientemente complejo, se puede aleatorizar (en inglés, randomize) el resultado de dicho algoritmo para que cada vez que se ejecute el resultado sea distinto. Este tipo de “resultado inesperado” se ha aplicado no sólo en ciencia, sino en artes como la música o la pintura. Sin embargo, es en el mundo del videojuego donde se le ha encontrado un especial atractivo. Y es que un videojuego de tipo sandbox (es decir, de mundo abierto) requiere una colosal escala de modelado. Al fin y al cabo, pretendemos remedar un mundo entero en un entorno virtual. Por pura limitación técnica y de desarrollo, la mayoría de videojuegos sandbox tenían un número finito de elementos repetidos periódicamente. Al igual que el Neo de Matrix veía un glitch en forma de déjà vu gatuno, empezaríamos a ver las mismas texturas, los mismos árboles, las mismas caras una y otra vez a lo largo de la partida. La posibilidad de aleatorizar estos elementos, al igual que en la vida real, resultaba demasiado tentadora. Aunque hay no pocos ejemplos de estos intentos de generación procedural desde los años 80, probablemente el ejemplo por excelencia debido a la exorbitante escala sea el videojuego No Man’s Sky, desarrollado por Hello Games y publicado en 2016 para diversas plataformas. En dicha obra, nos despertamos en un planeta desconocido con una nave espacial averiada, y nuestra primera misión es buscar recursos para repararla. Hasta aquí, todo bastante convencional. Rápidamente nos percatamos de que, al contrario que en otros juegos, si empezamos a caminar en línea recta no hay barreras invisibles, obstáculos insalvables, ni nada que evite salir de la zona modelada. De hecho, podríamos dar la vuelta completa al planeta si nos lo propusiéramos, encontrando fauna y flora extravagante por doquier. Al conseguir salir del planeta, comprobamos cómo éste tiene una escala natural, es decir, de un tamaño comparable a Marte o la Tierra. En ese extraño Sistema Solar, encontraremos más planetas y lunas, a los que nos podemos desplazar mediante un ficticio motor de curvatura (o “hiperespacio”, a gusto del consumidor). Aterrizando en otro de estos astros, encontraremos un nuevo mundo por explorar, diferente el anterior en clima, relieve, fauna, flora, eventuales civilizaciones inteligentes, etc. El giro final viene cuando nos preguntamos si podemos salir también de ese Sistema Solar, o incluso de la galaxia. Descubrimos entonces que el juego contiene 255 galaxias individuales, con un total de 18.446.744.073.709.551.616 planetas, todos ellos visitables y diferentes entre sí. El número, por si a alguien no le apetece contar comas, son unos 18 trillones. Si 100 personas visitaran un planeta por segundo, tardarían unos 5000 millones de años en recorrer todos. Aproximadamente, la edad del planeta Tierra. Hello Games consiguió crear un Universo entero con infinitas posibilidades sin tener que modelar explícitamente un solo planeta. Sólo empleó generación procedural para combinar de distintas maneras estos elementos individuales. Ningún planeta es idéntico a otro, ni tiene la misma fauna, flora o civilizaciones. De hecho, al implementar las capacidades de juego online, cada jugador puede descubrir planetas y ponerles un nombre, o visitar a una amiga en la base submarina que ha creado en un Sistema Solar especialmente peculiar. Los planetas son los mismos para todos, ya que el algoritmo es determinista – es la asignación del planeta inicial la que es completamente aleatoria. Como curiosidad, incluso la banda sonora del juego se genera proceduralmente, partiendo de miles de samples de la banda 65daysofstatic. El (video)juego de Ender No Man’s Sky es un sobresaliente ejemplo de generación procedural en los videojuegos, pero ya hace 6 años que se publicó. ¿Cómo podemos ir más allá? Es aquí donde entra la Inteligencia Artificial (IA). En videojuegos, la IA suele hacer referencia al comportamiento de los NPCs (del inglés Non-Playable Characters, es decir, personajes no jugables), ya sean amigos, enemigos o neutrales. Por ejemplo, en un videojuego de carreras como Gran Turismo, la reacción del resto de coches ante las acciones del jugador. ¿Tiene la máquina un excelente nivel de pilotaje, o bien uno mediocre? Es interesante ver cómo la IA ha evolucionado muy poco en los videojuegos. La mayoría de acciones son previsibles en cuanto logramos aprender el patrón. Incluso videojuegos con combates conocidos por su gran dificultad (como Hollow Knight, Cuphead o Dark Souls) presentan unas batallas muy sencillas a nivel conceptual, cuyo único desafío real radica en nuestra habilidad como seres humanos para ejecutar una secuencia concreta de comandos en el controlador/teclado en el tiempo exacto. Lo mismo ocurre con el realismo de NPCs al hablar con el jugador, ya que tienen un número limitado de líneas de diálogo y animaciones. Es típico agotarlas en pocas iteraciones, cosa que jamás pasaría en el mundo real. Esto cambiará radicalmente con la aplicación de IA, específicamente Deep Learning. Estos algoritmos permitirán a los estudios no sólo tener una inestimable ayuda para la programación de sus obras, sino generar de cero de forma autónoma arte conceptual, diálogo o incluso juegos enteros. Es decir, generación procedural, pero en lugar de estar sujetas a un algoritmo determinista hacerlo de forma orgánica y realista, tal y como lo haría un ser humano. El comportamiento de los personajes será aprendido de nuestro modo de juego e implementado en tiempo real. El realismo será extremo en cuanto a la interacción con NPCs, ya que habrá líneas de diálogo infinitas. No estaremos sujetos a elegir entre unas pocas opciones predefinidas, sino que podremos entablar conversaciones naturales con cualquier personaje. Además, softwares como StyleGAN, diseñado por NVIDIA y publicado en código abierto en 2019, permite crear caras fotorrealistas con una red neuronal generativa antagónica (en inglés, Generative Adversarial Network), aumentando exponencialmente la inmersión en la narrativa propuesta. En cierta manera, cada persona jugará a un juego distinto, ya que una misma obra se configurará en función de dicho jugador. Dado que la IA estará siempre aprendiendo, no sólo generará constantemente nuevo contenido para el juego sino que, en cierta manera, el juego nunca estará “acabado”; sólo cuando lo abandonemos se dejará de construir y actualizar a sí mismo. No obstante, debemos tener una cierta cautela a la hora de aplicar Deep Learning en los videojuegos. Por ejemplo, un enemigo que aprenda de nuestros movimientos sería capaz de volverse invencible rápidamente, puesto que enseguida verá los fallos de nuestra estrategia y adaptará su estilo, como es el caso de Sophy, la nueva IA de Gran Turismo, capaz de derrotar a pilotos profesionales. Sólo el tiempo dirá hasta dónde podemos llegar combinando generación procedural e IA, pero está claro que el futuro será muy realista.
22 de agosto de 2022