Riesgos en la Inteligencia Artificial: inyección de prompts en chatbots

26 de septiembre de 2023

Posiblemente sean pocos los internautas que no hayan oído hablar de ChatGPT, o de las nuevas herramientas de Inteligencia Artificial (IA), cuyo interés no para de atraer a más y más usuarios, debido a que ha revolucionado múltiples aspectos de la sociedad y la tecnología. La inteligencia artificial proporciona múltiples beneficios, a pesar de que con cada paso adelante surjan nuevos desafíos en términos de seguridad.

Uno de los peligros emergentes que acecha a los sistemas de IA es la conocida como 'inyección de prompt' o 'prompt injection', una técnica empleada por actores maliciosos con el objetivo de manipular la entrada o instrucciones que se le proporcionan a un sistema de Inteligencia Artificial.

Sobre ello, el Centro Nacional de Ciberseguridad del Reino Unido (NCSC) ha alertado sobre el creciente peligro de los ataques de "prompt injection", dirigidas contra aplicaciones creadas con IA.

Aunque la advertencia va dirigida a los profesionales de la Ciberseguridad que construyen grandes modelos de lenguaje (LLM) y otras herramientas de IA, es crucial conocer este tipo de ataque si somos usuarios de cualquiera de estas herramientas.

¿Qué es un 'prompt'?

Antes de nada, vamos a familiarizarnos con el término 'prompt' y su importancia dentro del campo de la inteligencia artificial.

Un prompt es una solicitud o instrucción dada al modelo de IA para que genere una respuesta. Se utiliza comúnmente en informática y programación para referirse a esa petición que hacemos a un programa o sistema, con el objetivo de obtener una respuesta o una acción. Un prompt puede ser una frase, una pregunta o incluso un párrafo completo.

Imaginemos que nos vamos de viaje a París y nos gustaría organizar un itinerario, pero no sabemos por dónde empezar. Atendiendo a los días que estemos, podemos pedírselo a ChatGPT de Open AI, a Bard de Google, a Bing Chat de Microsoft, o a la herramienta que prefiramos, mediante el uso de un prompt lo más preciso posible.

👩 Crea un itinerario detallado de viaje de 3 días a París.

🤖 Día 1: descubriendo los iconos de París

Mañana: Torre Eiffel
Comience su día temprano visitando la Torre Eiffel. Evite las multitudes llegando antes de la apertura. Disfrute de las vistas panorámicas desde la cima.

Tarde: Museo del Louvre
...

En el ejemplo anterior podemos ver como solicitando mediante esa frase (un prompt), ChatGPT devuelve una propuesta de ruta de 3 días para visitar París, tal y como le hemos guiado a la IA en su proceso de generación de texto.

Los prompts guían al software o chatbots de IA para generar esas respuestas, y es por ello por lo que se está popularizando el término de “Prompt Engineering”, para utilizar de manera más precisa los grandes modelos de lenguaje (LLM).

Alerta sobre 'prompt injection'

Como se ha adelantado, la agencia de ciberseguridad de Reino Unido (NCSC) advirtió sobre este potencial ataque, indicando que los actores maliciosos pueden abusar de los grandes modelos de lenguaje inyectando instrucciones maliciosas o sesgadas en el proceso de solicitud, forzando a la IA a realizar acciones arbitrarias. Esto podría comprometer la integridad de la información, borrado de datos o permitir ejecutar transacciones financieras fraudulentas.

Mediante este ataque se puede engañar a un chatbot u otra herramienta de inteligencia artificial para que responda sí a cualquier consulta, permitiendo que se anulen las directrices originales del desarrollador.

A través de ello, si a una IA se le consulta cómo cometer un determinado ataque u delito, en lugar de responder que no puede, permitiría que acabe brindando instrucciones detalladas como respuesta a la petición.

Mediante este ataque, se puede engañar a un chatbot u otra herramienta de inteligencia artificial para que responda a cualquier consulta

Por otro lado, el El NCSC alerta que, estos chatbots, impulsados por LLM, de ser incorporados a los procesos de una empresa, podría exponer vulnerabilidades y poner en riesgo a las organizaciones que los emplean con fines de ventas y atención al cliente.

Por ejemplo, un ciberdelincuente podría diseñar una consulta que engañe a un chatbot bancario para que realice una transacción ilegal.

Por tanto, los ataques de inyección de prompts sobre los que alerta el NCSC constituyen un riesgo a tener en cuenta en términos de Ciberseguridad debido a su capacidad para manipular ciertos aspectos del funcionamiento y de las respuestas de modelos de lenguaje de Inteligencia Artificial.