Eduardo Fernández García

Eduardo Fernández García

Ingeniero de Telecomunicaciones por la Universidad Politécnica de Madrid con máster en Data Science & Generative AI. Actualmente trabajo como Científico de Datos en Telefónica Tech. Apasionado de las matemáticas, de las nuevas tecnologías y del ciclismo.

AI & Data
Detectar lo indetectable: herramientas de IA para identificar contenido generado por IA
En apenas unos años, la IA Generativa ha pasado de ser una curiosidad tecnológica a algo que usamos a diario. Desde asistentes que redactan correos electrónicos hasta chatbots que mantienen conversaciones que parecen humanas. La IA ha cambiado radicalmente la forma de trabajar, de escribir y de pensar de las personas: lo que antes nos llevaba horas ahora se puede hacer en segundos con un prompt bien definido. Esta democratización en la creación de contenido ha abierto posibilidades infinitas. Pero como sucede con toda revolución tecnológica, no todo es positivo. La misma facilidad que hace de la IA una herramienta tan potente también genera un problema. ¿Cómo se puede distinguir entre un texto generado por un humano y uno generado por una IA? Cómo funcionan los detectores de contenido generado por IA Esta pregunta tiene consecuencias importantes en la práctica, ya que, cuando la autenticidad del contenido importa (como por ejemplo cuando tenemos que verificar la autoría de un trabajo en educación), es fundamental garantizar que las propuestas sean originales, por lo que necesitamos herramientas fiables. Y aquí es donde entran en juego los detectores de contenido generado por IA. Herramientas que, curiosamente, usan la propia IA para detectar su presencia. Pero ¿cómo funcionan exactamente? Los detectores de texto generado por IA se basan en algo aparentemente contradictorio: usar IA para identificar contenido creado por otras IA. Aunque suene paradójico, los modelos de lenguaje dejan "huellas digitales" características en sus textos, patrones que se pueden reconocer y analizar. Los detectores de contenido generado por IA emplean la propia inteligencia artificial para desenmascarar lo que otras IA han creado. Perplejidad y variabilidad: las claves para detectar texto de IA Para entender cómo funcionan, hay que explicar dos conceptos importantes: El primero es la perplejidad, que se encarga de medir lo predecible que es un texto. La IA tiende a elegir palabras probables, generando textos predecibles con baja perplejidad. Las personas en cambio somos más impredecibles: usamos giros inesperados o palabras menos obvias, y por eso nuestros textos tienen mayor perplejidad. El segundo concepto es el burstiness o variabilidad: las personas, al escribir, alternamos entre frases cortas y largas y entre frases simples y complejas, mientras que la IA mantiene un ritmo bastante uniforme. La IA genera textos predecibles con baja perplejidad, mientras que las personas escribimos de forma más variada e impredecible. En cuanto a la tecnología, estos detectores usan modelos basados en transformers, la misma tecnología que impulsa sistemas como GPT o Claude. Los más comunes son versiones adaptadas de BERT, RoBERTa o DistilBERT, entrenados con millones de ejemplos de texto humano y generado por IA. También analizan los embeddings (representaciones matemáticas del texto), porque los textos humanos y los de IA tienden a agruparse en zonas diferentes del espacio vectorial. Además, se usan técnicas estadísticas complementarias: análisis de patrones de repetición, medición de la diversidad de vocabulario (los humanos usamos más variedad), y análisis de complejidad sintáctica. También existe el watermarking o marcas de agua digitales, patrones imperceptibles que algunas IA incorporan en sus textos, aunque esto solo funciona si el texto no ha sido editado después. ¿Son realmente fiables los detectores de texto de IA? Ninguna de estas técnicas es perfecta. Estamos en una especie de "carrera tecnológica": a medida que los modelos generativos mejoran y suenan más humanos, también se vuelven más difíciles de detectar. Los textos híbridos (editados parcialmente por humanos) complican mucho las cosas. Y encima están los falsos positivos (escritores humanos con estilos muy estructurados que parecen IA) y los falsos negativos (textos de IA que pasan desapercibidos). La realidad es que estas herramientas funcionan aceptablemente en muchos casos, pero tienen límites claros. Van mejor con textos largos que con cortos, y funcionan mejor con contenido general que con textos muy especializados. Además, necesitan actualizaciones constantes para seguir el ritmo de los nuevos modelos generativos que van apareciendo. Incluso las mejores herramientas de detección de texto de IA están lejos de ser infalibles. De hecho, los números lo confirman. El estudio Testing of detection tools for AI-generated text evaluó recientemente la precisión de las principales herramientas disponibles y los resultados son reveladores: TurnItIn y Compilatio alcanzan tasas cercanas al 80% de precisión, siendo las más fiables. ¿Son fiables los detectores de textos generados por IA? Fuente: Testing of detection tools for AI-generated text. Otras herramientas como Content at Scale o PlagiarismCheck apenas llegan al 50% (equivalente a lanzar una moneda al aire), mientras que otras más populares como GPTZero o ZeroGPT se quedan entre el 65-70%. Con esto se demuestra que incluso las mejores opciones están lejos de ser infalibles. ¿Cuándo sí pueden ser útiles estos detectores? A pesar de sus limitaciones, estas herramientas tienen sentido en varios sectores. En el ámbito educativo, muchas instituciones las integran en sus procesos de evaluación académica. En periodismo y medios digitales, se usan para gestionar la producción de contenido a gran escala. En recursos humanos, forman parte de los procesos de selección cuando se analizan grandes volúmenes de candidaturas. También están ganando relevancia en sectores donde la originalidad es especialmente crítica. En el audiovisual, las convocatorias de ayudas públicas para guiones cinematográficos empiezan a incorporarlas en sus fases de evaluación. En general, tienen sentido allí donde se necesita analizar grandes cantidades de texto y la autenticidad del contenido es importante, siempre que se combinen con criterio humano. Conclusión La detección de contenido generado por IA no es una ciencia exacta. Es un campo en constante evolución que debe complementarse siempre con criterio humano y análisis contextual. No podemos confiar ciegamente en un porcentaje que nos da una herramienta. Y ahora viene la pregunta inevitable: ¿este artículo que acabas de leer lo ha escrito completamente un humano o ha contado con ayuda de una IA? ¡Te animo a que lo compruebes tú mismo con alguna de las herramientas que hemos mencionado! AI & Data Algoritmos verdes, la clave para una IA sostenible 3 de octubre de 2024
11 de diciembre de 2025
AI & Data
Algoritmos verdes, la clave para una IA sostenible
Cuando nos referimos al término Inteligencia Artificial (IA) solemos relacionarlo con algoritmos sofisticados que nos ayudan a resolver muchos de los problemas que se presentan en nuestro día a día. También pensamos en que es uno de los pilares fundamentales de la transformación digital. Sin embargo, raramente se asocia con la ética o la sostenibilidad. Por eso, en el post de hoy hablamos de algoritmos verdes y de cómo nos ayudan a trabajar de una forma más sostenible, mejorando el consumo eléctrico y las emisiones de carbono. ¿Qué son los algoritmos verdes? Para empezar, hemos de entender qué son los algoritmos verdes, aquellos que se construyen de una forma eficiente ya que, consumiendo menos recursos, consiguen el mismo resultado que obtendría un algoritmo más complejo. En definitiva, son algoritmos energéticamente más eficientes y con menor huella de carbono. Pero… ¿cómo hemos llegado al punto de necesitar estos algoritmos verdes? Hoy en día, más del 50% de la población mundial tiene acceso a internet. Miles de millones de personas acceden a contenidos y servicios online cada día, demandando una infraestructura de telecomunicaciones capaz de soportar esa carga. Esta demanda de servicios crece de manera exponencial, y por eso los centros de datos también deben estar preparados para ello. ⚠️ Toda esta evolución y capacidad de conexión y cómputo, además de traer consigo un gran número de mejoras y avances significativos, ha generado también un aumento en el consumo de energía. El impacto del consumo energético En concreto, en marzo de 2024 existían en el mundo 10.593 centros de datos. Según estimaciones de la Agencia Internacional de la Energía, el consumo de energía global de todos ellos se sitúa en torno a los 460 TWh, suponiendo casi un 2% de la demanda global de electricidad. Se calcula que estas cifras irán aumentando y que, en el peor de los escenarios, para el año 2026 llegue a duplicarse debido al avance y desarrollo de algunas tendencias, como pueden ser IA o las criptomonedas. Este consumo de energía esperado es el equivalente al consumo eléctrico de Alemania. ✅ Cada centro de datos consume en torno a 68.000 litros de agua al día para la refrigeración de sus servidores, lo que es igual al consumo anual de una persona. En este sentido, en los últimos años se han realizado pruebas con centro de datos alternativos para reducir estos costes de refrigeración. El impacto de las emisiones de CO2 Y no solo es significativo el consumo de energía, sino que además estos centros de datos generan grandes emisiones de dióxido de carbono. Por ejemplo: Visualizar 30 minutos de vídeo a través de una plataforma de streaming supone la emisión de 1,6 kg de CO2, equivalente a conducir unos 10 kilómetros. En el ámbito de las criptomonedas, Bitcoin tiene una huella de carbono comparable a la de Nueva Zelanda (36,95 T de CO2). ✅ Cada compra que se transfiere con Bitcoin es equivalente al CO2 producido por 750.000 pagos realizados con tarjeta de crédito. Y no solo producen emisiones, la electricidad consumida por las criptomonedas a nivel global es el análogo al consumo eléctrico de Países Bajos. El impacto energético de la IA En este contexto de aumento de consumo también entra en juego el avance en la capacidad de computación. La explosión del uso de aprendizaje automático (machine learning), y más concretamente los modelos basados en aprendizaje profundo (deep learning), está aumentando el consumo de energía y la huella de carbono de la industria en la nube. Imagen del autor. La estimación de Google Flights para las emisiones generadas de un viaje en avión de ida y vuelta entre San Francisco y Nueva York es de 180 T de CO2. Si lo comparamos con las emisiones para el entrenamiento de algunos sistemas LLM (Large Language Models, modelos de lenguaje masivo), estas emisiones supondrían: El 26% del consumo del vuelo para el modelo de lenguaje natural T5 LLM. El 53% para Meena. El 2% para GShard-600B. El 32% para Switch Transformes. El 305% para GPT-3 de OpenAI, la empresa detrás de ChatGPT. ✅ Según una investigación de la Universidad de Berkeley (California), las emisiones para el entrenamiento de GPT-3 fueron de 552 toneladas de CO2, y su consumo de energía fue de 1.287 MWh. Son cifras que se asemejan al consumo medio de un hogar estadounidense durante 120 años. En definitiva, es evidente que cada vez, y tanto a nivel personal como empresarial, vamos siendo más conscientes de que la huella de carbono es un reto a nivel global. Por eso, muchas empresas están tomando medidas para convertirse en emisores de carbono cero, realizando cambios en sus actividades para evitar la contaminación. Y es precisamente en este punto donde entran en juego los algoritmos verdes. Algoritmos verdes: un paso firme hacia la sostenibilidad Para tener conocimiento del consumo que se produce en cada ejecución, existen librerías de Python, como CodeCarbon, Eco2AI o Kiri, que se embeben dentro del código que vamos a ejecutar y se encargan de calcular la energía eléctrica consumida y el dióxido de carbono emitido en cada ejecución. Esto ayuda a los desarrolladores a tener una mayor visibilidad de la cantidad de emisiones generadas por la ejecución de código. Los algoritmos verdes son aquello construidos de una forma más eficiente, ahorrando energía y emisiones de dióxido de carbono. Algunas de estas librerías, además, comparan la cantidad de emisiones con sus emisiones equivalentes en, por ejemplo, la cantidad de millas recorridas en automóviles, las horas de televisión vistas o el consumo promedio de un hogar. Incluso algunas de estas librerías proponen soluciones más eficientes, como cambiar la ubicación del centro de datos. Conclusión Los algoritmos verdes proporcionan una solución al desafío que tiene la sociedad actual con la sostenibilidad sin renunciar al avance tecnológico que nos proporciona la IA. Implementar estas herramientas no solo reduce el impacto medioambiental, sino que también fomenta una mayor conciencia sobre el consumo energético y las emisiones de CO2 en el sector tecnológico. Es esencial que desarrolladores y empresas tecnológicas adopten estas prácticas sostenibles. Además de reducir emisiones y consumo energético, optimizan recursos y generan ahorros económicos significativos. De este modo la transición hacia una tecnología más verde y sostenible es un esfuerzo colectivo que requiere la colaboración de todos los actores involucrados. Con ello, no solo contribuimos al bienestar del planeta, sino que también abrimos nuevas oportunidades para innovaciones respetuosas con el medio ambiente. Telefónica Tech Cloud Centros de datos sostenibles: ¿cómo funcionan y cuáles son sus beneficios? 2 de noviembre de 2023
3 de octubre de 2024