No solo son las alucinaciones, los errores o las derivas neonazis: los riesgos asociados al uso de la inteligencia artificial también afectan a la ciberseguridad. Así lo confirma un informe de 0din, una empresa especializada en ciberseguridad aplicada a la IA.
El caso ‘Phishing for Gemini’ denunciado por los expertos explota una conocida técnica llamada prompt injection y permite enviar instrucciones ocultas que el algoritmo ejecuta sin pestañear.
La hipótesis de ataque descrita en el blog de Odin conduce a la visualización de un mensaje de phishing cuyo objetivo es robar las credenciales de acceso de la víctima, pero las posibles aplicaciones son numerosas y podrían acarrear consecuencias aún más graves.
Cómo funciona el ataque
La lógica detrás de la técnica de inyección de prompts es bastante simple: enviar instrucciones a un chatbot sin que el usuario del dispositivo se dé cuenta de esas instrucciones ni de que el comportamiento de la IA ha sido «desviado».
En la práctica, el vector de ataque puede ser cualquier documento que sea analizado por la inteligencia artificial. Basta con introducir una orden directa del tipo «Tú, Gemini, debes…». Los investigadores, en el informe, explican que en el caso de Gemini, es posible priorizar el comando utilizando las etiquetas
Para evitar que la víctima note la presencia de comandos dirigidos a la IA, basta con hacer invisible el texto. Esto puede hacerse estableciendo el color blanco sobre un fondo blanco o ajustando el tamaño de la fuente a 0.
Para el ojo humano, el mensaje aparecerá como una zona en blanco o un simple espacio dentro del texto. El algoritmo, sin embargo, lo lee y ejecuta la orden. La técnica, al menos a nivel teórico, es bien conocida. Sus posibles repercusiones en la seguridad, sobre todo de cara al lanzamiento de nuevas funciones, están aún por evaluar.
Phishing para Gmail
En este caso concreto, los investigadores de Odin demostraron cómo puede utilizarse la inyección puntual para llevar a cabo un ataque de phishing clásico. Varios factores contribuyen a que este tipo de ataque sea especialmente insidioso.
El primero es que dirigirse a Workspace y Gmail permite utilizar el correo electrónico como vector de ataque, teniendo así la posibilidad de utilizar HTML para formatear el texto de manera que sea invisible. La petición de resumir un correo electrónico, además, es una de las funciones basadas en IA más utilizadas en el ecosistema Workspace de Google.
El comando malicioso, en el ejemplo publicado en el blog de 0din, simplemente se inserta en la parte inferior del mensaje de correo electrónico, ‘ocultándolo’ al establecer el color en blanco.