Perché la poesia manda in tilt ChatGPT

Perché la poesia manda in tilt ChatGPT

AI Intelligenza Artificiale Prompt Poesia

Richieste improprie e che subito bloccate se poste in linguaggio naturale, vengono invece accettate dai large language model se messe in forma di versi e rime: com’è possibile?

Avere la certezza che ChatGPT, Gemini, Claude e tutti gli altri si rifiuteranno sempre di produrre contenuti vietati dalle loro policy non è possibile. Per quale ragione? “I provider hanno la responsabilità di proteggere gli utenti da contenuti dannosi e per farlo usano principalmente due strategie. La prima è l’allineamento in fase di addestramento, con cui il modello viene istruito a rifiutare determinate richieste oppure a seguire specifiche regole. La seconda strategia riguarda invece dei filtri esterni o classificatori che analizzano input e output del modello, bloccando tutto ciò che corrisponde a pattern riconosciuti come pericolosi”, spiega, parlando con Wired, Matteo Prandi, ricercatore ed esperto di AI Safety. “Il problema è che entrambi gli approcci si basano su esempi di richieste formulate in modo diretto, prosastico o estremamente preciso”, prosegue Prandi.

Jailbreak in versi

Ed è proprio per questa ragione che, nel corso degli anni, sono emersi molteplici metodi che permettono di aggirare le barriere: formulando comandi indiretti e creativi...

Continua a leggere

Previous Post