Sebbene i modelli siano addestrati su immagini esistenti, tutto ciò che creano è nuovo, che è una delle principali difese utilizzate da coloro che sono rialzisti.

I generatori di immagini di intelligenza artificiale più popolari e futuri possono imitare le immagini dai dati su cui sono formati, secondo i ricercatori.

I moderni modelli di intelligenza artificiale hanno la capacità di memorizzare e riprodurre informazioni sensibili da utilizzare in un set di intelligenza artificiale.

Riunendo la band, i ricercatori guidati da Nicholas Carlini hanno scoperto che il popolare Stable Diffusion open source era in grado di riprodurre immagini, alcune delle quali avevano ovvie implicazioni contro il copyright o le licenze delle immagini.

L’immagine è stata leggermente distorta dal rumore digitale dopo che il team ha inserito la didascalia nel prompt di Stable Diffusion.

I ricercatori hanno verificato manualmente se l’immagine era nel set di addestramento dopo che il team ha eseguito lo stesso prompt più volte.

Due dei ricercatori del giornale Eric Wallace, uno studente di dottorato alla UC Berkeley, e Vikash Sehwag, un candidato di dottorato alla Princeton University, hanno detto a Gizmodo in un’intervista su Zoom che la duplicazione delle immagini era rara.

Anche se Stable Diffusion ha lavorato per deduplicare le immagini nel suo set di addestramento, era ancora raro per modelli come questo.

I ricercatori hanno scoperto che Imagen era in grado di memorizzare immagini che erano solo nel set di dati.

Sehwag ha affermato che il modello dovrebbe generare nuove immagini piuttosto che sputare una versione memorizzata.

Stable Diffusion non ha la stessa quantità di spazio di archiviazione di un modello più grande.

Se il prossimo anno uscirà un nuovo modello molto più grande e molto più potente, allora questo tipo di rischi di memorizzazione sarebbe molto più alto.

Attraverso un processo complicato che comporta la distruzione dei dati di addestramento con rumore prima di rimuovere la stessa distorsione, i modelli di machine learning basati sulla diffusione creano dati simili a quelli su cui sono stati addestrati.

L’apprendimento automatico basato su GAN è stato un’evoluzione delle reti generative avversarie.

Sebbene i modelli basati su GAN non abbiano lo stesso problema con la memorizzazione delle immagini, è improbabile che le grandi aziende vadano oltre la diffusione a meno che non arrivi un modello di apprendimento automatico ancora più sofisticato che produca immagini ancora più realistiche e di alta qualità.

Sarebbe meno probabile memorizzare se le aziende lavorassero per rimuovere le immagini duplicate dai dati di addestramento.

Cosa dovrebbe succedere se un’intelligenza artificiale impara a memorizzare e duplicare le cartelle cliniche di una persona?.

You may also like

Leave a reply

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *