Novo istraživanje pokazuje da poezija može prevariti AI chatbotove da ignorišu sigurnosna pravila

ChatGPT (Izvor: AP Photo/Michael Dwyer, Fil)

Euronews.com/Euronews.ba

Objavljeno 01.12.2025 14:33

U 25 vodećih AI modela, 62% poetskih uputa proizvelo je nesigurne odgovore, a neki modeli su odgovorili na gotovo sve njih.

Istraživači u Italiji su otkrili da pisanje štetnih uputa u poetskom obliku može pouzdano zaobići sigurnosne mehanizme nekih od najnaprednijih AI chatbotova na svijetu, piše Euronews Next.

Studija, koju je proveo Icaro Lab, inicijativa etičke AI kompanije DexAI, testirala je 20 pjesama napisanih na engleskom i italijanskom jeziku.

Svaka je završavala eksplicitnim zahtjevom za štetnim sadržajem, uključujući govor mržnje, seksualni sadržaj, upute za samoubistvo i samopovređivanje, te smjernice o stvaranju opasnih materijala poput oružja i eksploziva.

Pjesme, koje istraživači nisu htjeli objaviti, napominjući da se mogu lako replicirati, testirane su na 25 AI sistema iz devet kompanija, uključujući Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI i Moonshot AI.

U svim modelima, 62 posto poetskih uputa izazvalo je nesigurne odgovore, zaobilazeći sigurnosnu obuku sistema umjetne inteligencije.

Neki modeli su bili otporniji od drugih - OpenAI-jev GPT-5 nano nije odgovorio štetnim sadržajem ni na jednu od pjesama, dok je Googleov Gemini 2.5 pro odgovorio na sve. Dva Meta modela odgovorila su na 70 posto upita.

Istraživanje sugerira da ranjivost dolazi od načina na koji AI modeli generiraju tekst. Modeli velikih jezika predviđaju najvjerovatniju sljedeću riječ u odgovoru, proces koji im omogućava filtriranje štetnog sadržaja u normalnim okolnostima.

Ali poezija, sa svojim nekonvencionalnim ritmom, strukturom i upotrebom metafore, čini ova predviđanja manje pouzdanim i otežava AI-ju prepoznavanje i blokiranje nesigurnih instrukcija.

Dok su tradicionalni AI "jailbreakovi" (korištenje ulaza za manipulaciju velikim jezičkim modelom) obično složeni i koriste ih samo istraživači, hakeri ili državni akteri, adversarialnu poeziju može primijeniti bilo ko, što postavlja pitanja o robusnosti AI sistema u svakodnevnoj upotrebi.

Prije objavljivanja nalaza, italijanski istraživači su kontaktirali sve uključene kompanije kako bi ih upozorili na ranjivost i dostavili im kompletan skup podataka - ali do sada je samo Anthropic odgovorio. Kompanija je potvrdila da preispituju studiju.

Možda će vam se svidjeti

Umjetna inteligencija Sigurnost Poezija