Perché la poesia manda in tilt ChatGPT

Pillole Perché la poesia manda in tilt ChatGPT

Richieste improprie e che subito bloccate se poste in linguaggio naturale, vengono invece accettate dai large language model se messe in forma di versi e rime: com’è possibile?

Avere la certezza che ChatGPT, Gemini, Claude e tutti gli altri si rifiuteranno sempre di produrre contenuti vietati dalle loro policy non è possibile. Per quale ragione? “I provider hanno la responsabilità di proteggere gli utenti da contenuti dannosi e per farlo usano principalmente due strategie. La prima è l’allineamento in fase di addestramento, con cui il modello viene istruito a rifiutare determinate richieste oppure a seguire specifiche regole. La seconda strategia riguarda invece dei filtri esterni o classificatori che analizzano input e output del modello, bloccando tutto ciò che corrisponde a pattern riconosciuti come pericolosi”, spiega, parlando con Wired, Matteo Prandi, ricercatore ed esperto di AI Safety. “Il problema è che entrambi gli approcci si basano su esempi di richieste formulate in modo diretto, prosastico o estremamente preciso”, prosegue Prandi.

Jailbreak in versi

Ed è proprio per questa ragione che, nel corso degli anni, sono emersi molteplici metodi che permettono di aggirare le barriere: formulando comandi indiretti e creativi...

Continua a leggere

Previous Post Next Post

Le pillole vengono annunciate nel canale Telegram.
Puoi unirti per essere aggiornato

Syndicate

Atom 1.0 RSS

Popular Tags

AI Intelligenza Artificiale scuola GDPR Le Dita Nella Presa Privacy LDNP privacy GAFAM UE Google Meta Audio sorveglianza USA lavoro software libero dati libri audio pedagogia hacker social network inquinamento tecnologie conviviali cloud tecno controllo Appuntamenti CIRCE guerra dad Microsoft lavoratori BigTech chatGPT PNRR hackmeeting smartphone guerre di rete Carlo Milani piattaforme Israele datacenter social media algoritmi piracy shield DataKnightmare Musk Piano Scuola 4.0 Stefano Barale spyware Amazon Schrems II censura EU Facebook Apple connessione internet hacker riconoscimento facciale buone notizie emissioni co2 energia Cina alternative Palestina Scuola google facebook sicurezza whatsapp sovranità digitale LLM terre rare impronta ambientale del digitale Cassandra Crossing PA Tim chip malware AGCOM copyright dipendenze fad Privacy shield smart working twitter laboratori bias cognitivi Internet antitrust insegnanti garante privacy Palantir Francia estrattivismo Garante della privacy open source Linux formazione motori di ricerca pubblicità Gazaweb diritti Data Privacy Framework dopamina Agnese Trocchi ecologia RAEE telegram Daniela Tafani Monitora-PA OpenAI KKR Carola Frediani università criptovalute De Martin Gaza chatcontrol insegnamento finanza proteste pirateria mastodon ambiente Cavi armi microsoft Gaia-X didattica profilazione StakkaStakka Noyb data viz Paragon monopoli Trump diritto alla riparazione Smart TV batterie AvANa Tik Tok CGUE App apple DSA techbros blockchain NFT IMA opendata TWC Cloudfare down kenobit Alphabet openpolis Tracciamento software rifiuti accessibilità Fibra Signal litio Davide Fant polizia predittiva corsi amazon giornalismo AI Act Windows android tecnologie del dominio covid-19 fediverso ChatBot autodifesa digitale adolescenti ransomware ROR bambini broligarchs cybersecurity bitcoin intelligenza artificiale Sissa email Ministero dell'Istruzione degoogling videogiochi chat Iran privacy shield fake news dns DMA crittografia Polizia digitali possibili divario digitale Roma Nucleare data center microlavoro dataninja telelavoro Intel nextcloud Cory Doctorow Peter Thiel instagram manipolazione web video sorveglianza bot smart city youtube Albertelli Tasse data Automazione Silicon Valley browser No tech 4 Apartheid X Fantascienza metaverso Italia Nexa Hacktivism Deep Learning apprendimento tecno soluzionismo storia Internet framasoft indymedia VPN energie rinnovabili Alberi della rete Gli Asini Allucinazioni Lombardia informazione IO Spagna tiktok Machine Learning Medicina hacklab moderazione conoscenza decentralizzazione treni Semiconduttori inclusive design deepseek Instant messaging Aaron Swartz gamification Office 365 radio Startlink Gancio scrittura attacco hacker internet archive amazon mechanical turk Danimarca sanità digitale body rental cobalto agenti AI OpenFiber coltan Chrome servizi segreti musica datafication ISTAT Simondon Underscore tecnofascismo brevetti Russia newsletter GPL Entropia Massima etica digitale eventi Economia dell'attenzione Threads ELIZA CAD clearview AI videochat Analytics AGID Elezioni Radio Blackout reclaimyourface FUSS Critica IA cina libreOffice Germania ICT Nimbus NextEmerson e-waste Migranti Programmare vibe coding archive.org transfemminismo server hackrocchio Mar Rosso formatori MAGA CDN KeyCrime Giove Gare d'appalto Cookie Clima Taiwan SARI repressione chatgpt criptobluff wifi cibernetica Cile Piede Sinistro nudging meta GIG economy protocolli di rete foxconn scacco al web discriminazioni pay or ok potere Plaid copyleft palestra digitale automobile deepnude Anna’s Archive Musei di Informatica uber TOR Tails HP Intelligenza artificaile podcast robot vaccino biblioteca EDPB Hinton Telecom protectEu Acqua ASSOLI automobili accesso universale cifratura Stalkerware violenza di genere metadati Anthropic peer2peer p2p Svizzera Kazakistan Digital omnibus OpenStreetMap disinformatico Dati sanitari Spotify zoom Centralizzazione AWS Autistici intelligenza inesistente RAM MeMa Fair Tax Foundation fuffaguru chatbait linguaggio fragilità ILS streaming cinema Bifo privatizzazione amazon ring binario etico Alessandro Longo Costituzione Gmail Olanda ICANN punto org Ethos Capital Minos mapparoma nativi digitali bolla finanziaria coding datibenecomune Bluesky Weizenbaum Ginox Partiti Africa Il Manifesto URL Mobilizon lavoro agile salute standard riconondizionamento linguistica big data Gartner spesa IT Enshittification case F/LOSS Codex Osservatorio Nessuno web3 imprese EuroDAC Colombia Stallman cockies Team Jorge garante privacy Irlanda Paraguay Criptografia Seacom SALAMI foto viminale IRPI elettronica decreto sicurezza IoT RTT Liberismo zero-click search Slopaganda deep fake Geofencing startup Thunderbird evasione fiscale rwanda India Chip 4 SIAE Collettiva sindacato Telecamere Traduzioni Respiro wechat /e/ cyberpunk Minerva ITU Frediani profitto realtà aumentata visori Ian Murdock Suchir Balaji formazioni 5g elettromagnetismo Colao DRM HDMI HDCP warm up GE-120 hate speech Eleutera propaganda pagopa corpi Jonathan Crary Terra Bruciata carico cognitivo feed RSS blob Mordicchio ricerca scientifica MAXI Luddismo Gates agorà democratiche decidim Nvidia GPU Capocci matstodon cash back App IO Alessandro Delfanti combustibili MIAI MusIF fake text fake voiice fake imagees stampa Gutemberg CUB archivi condivisione grafton9 Prompt Poesia Numerico QWAK AdTech ONU bbs carcere trasparenza diritti umani Amnesty International OpenClaw microchip Milei CrimethInc RDC Uruguay Digital Markets Act ENISA Glovo Ragionamento reddito universale di base disinformazione Canapa vendite PC Tesla immuni gpg sexsting violenza digitale turboliberismo html keywords tag AIIP active listening Domini leaks Dettagli AGI Bard Bing Z-Library Tor eBook Lazio Quadrature du Net welfare hosting enciclica Magnifica Humanitas Wozniak matrix tram Richard Sallman GNU organic internet reti comunitarie Digital Clean Up Day proprietà emergente SEDS ZTL assistente tecnico minerali Arc-agi net neutrality Cyborg openPNRR registro elettronico Airbus regione lazio zingales sentiment analysis e-commerce jd.com mediaworld Venezuela DDI Monitora PA Scienze netflix lockdown FSFE PSN Leonardo Sogei Lynx cyberbullismo reddit GameStop Fibercop Brasile licenziamenti Teatro SpaceX VASA aloisi di stefano formati file Incontri Confindustria Federazione genitori Smart Glasses Architettura dell'Informazione Otero Olvid Mistral digi tales open publishing Timnit Gebru Vance hackordie Svezia IAB Belgio tlc sciopero Garr solarwinds cd-rom Karen Hao EuroStack Cyber Resilience Act

Perché la poesia manda in tilt ChatGPT

Perché la poesia manda in tilt ChatGPT

Notizie da Notizie da C.I.R.C.E.

come valutare le tecnologie?

L'anarchia alle prese con il linguaggio

Intelligenza artificiale e dati: basta l’etica? Il webinar PICO del 16 giugno

Intelligente? Artificiale? Un approccio critico alle Linee Guida del MIM

Podcast Piede Sinistro: Internet, Mon Amour 1/2

Notizie da Pedagogia hip-hop / Davide Fant Blog

Pedagogia hacker – il libro

R-esistere adolescenti. Strumenti per una risposta educativa alla sofferenza delle nuove generazioni

(Breve) storia della mia Pedagogia Hip-Hop

Abbiamo creato una rete nazionale per chi lavora con l’hip-hop in campo educativo

E’ tempo di un approccio educativo e sociale alla sofferenza degli adolescenti

Notizie da graffio

Radiobase, esempio di FAD, apprendimento cooperativo ed emersione delle competenze

Cyber Bluff. Storie, rischi e vantaggi della rete per navigare consapevolmente

Didattica a Distanza, seconda ondata

Davvero abbiamo bisogno di tutti questi dati?

Didattica a distanza: fuori dall’emergenza!

Syndicate

Popular Tags

Archives