CulturaInformación General

La poesía pone a prueba los filtros de seguridad de la inteligencia artificial

Investigadores del Icaro Lab, con sede en Italia, descubrieron que la poesía puede convertirse en una vía inesperada para sortear los mecanismos de seguridad de los modelos de inteligencia artificial (IA). El hallazgo surge de un estudio sobre lo que denominaron “poesía adversarial”, una técnica que transforma instrucciones potencialmente peligrosas en textos poéticos para evaluar cómo reaccionan los sistemas de IA.

Para el experimento, el equipo utilizó unas 1.200 indicaciones consideradas de riesgo, que habitualmente se emplean para poner a prueba la capacidad de los modelos lingüísticos de detectar y bloquear contenido prohibido, como instrucciones para cometer actos ilegales. Estas consultas, conocidas como “indicaciones adversariales”, suelen redactarse en prosa y son filtradas por los sistemas de seguridad. La novedad consistió en convertirlas en poemas.

Según explicó Federico Pierucci, licenciado en filosofía e integrante del equipo, las primeras 20 indicaciones poéticas fueron escritas manualmente por los propios investigadores. Esos textos resultaron ser los más efectivos para evadir los filtros. En el resto de los casos, recurrieron a la propia IA para transformar las indicaciones en versos. Si bien también lograron resultados significativos, la tasa de éxito fue menor. “Probablemente los humanos seguimos siendo los mejores poetas”, señaló Pierucci con ironía.

El estudio no publica ejemplos concretos de las indicaciones por razones de seguridad, aunque los autores admiten que no contaron con escritores profesionales. “Quién sabe, si hubiéramos tenido mejores habilidades literarias, quizá la tasa de éxito habría sido del 100%”, apuntó el investigador.

Más allá de la anécdota, el trabajo revela una debilidad poco explorada en los sistemas actuales de IA: la dificultad para reconocer riesgos cuando el lenguaje se presenta de forma creativa o no convencional. El equipo investiga ahora por qué la poesía logra desactivar o confundir los mecanismos de protección y si otras formas culturales —como los cuentos o las fábulas— podrían producir efectos similares.

“El lenguaje humano es extraordinariamente diverso”, concluye Pierucci. “Un mismo contenido puede reescribirse de muchas maneras, y algunas de ellas pueden hacer que las alarmas de seguridad de la IA no se activen”.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *