AI Intelligenza Artificiale GDPR Microsoft dati
Sta circolando un’accusa pesante che riguarda il popolarissimo software Word di Microsoft: userebbe i testi scritti dagli utenti per addestrare l’intelligenza artificiale dell’azienda. Se l’accusa fosse confermata, le implicazioni in termini di privacy, confidenzialità e diritto d’autore sarebbero estremamente serie.
Questa è la storia di quest’accusa, dei dati che fin qui la avvalorano, e di come eventualmente rimediare. Benvenuti alla puntata del 25 novembre 2024 del Disinformatico, il podcast della Radiotelevisione Svizzera dedicato alle notizie e alle storie strane dell’informatica.
Le intelligenze artificiali hanno bisogno di dati sui quali addestrarsi. Tanti, tanti dati: più ne hanno, più diventano capaci di fornire risposte utili. Un’intelligenza artificiale che elabora testi, per esempio, deve acquisire non miliardi, ma migliaia di miliardi di parole per funzionare decentemente.
Procurarsi così tanto testo non è facile, e quindi le aziende che sviluppano intelligenze artificiali pescano dove possono: non solo libri digitalizzati ma anche pagine Web, articoli di Wikipedia, post sui social network. E ancora non basta. Secondo le indagini del New York Times, OpenAI, l’azienda che sviluppa ChatGPT, aveva già esaurito nel 2021 ogni fonte di testo in inglese pubblicamente disponibile su Internet.
Per sfamare l’appetito incontenibile della sua intelligenza artificiale, OpenAI ha creato uno strumento di riconoscimento vocale, chiamato Whisper, che trascriveva il parlato dei video di YouTube e quindi produceva nuovi testi sui quali continuare ad addestrare ChatGPT. Whisper ha trascritto oltre un milione di ore di video di YouTube, e dall’addestramento basato su quei testi è nato ChatGPT 4.