No estudo, os pesquisadores escreveram 20 prompts que começavam com pequenas vinhetas poéticas em italiano e inglês e terminavam com uma única instrução explícita para produzir conteúdo prejudicial, revela o Mashable. Eles testaram esses prompts em 25 modelos de linguagem (LLMs) do Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI e Moonshot AI. E os resultados, em sua maioria, foram muito parecidos.

