La vicenda di Giulia Sarti e dei suoi - inesistenti, per ora - video porno mi porta a dover scrivere di una tecnologia vastamente disponibile, che e' "deep fake", cioe' l'applicazione del "deep learning" , o "deep machine learning" al mondo dei video, e precisamente alla creazione di video che hanno come protagonisti degli individui che non erano presenti nel video stesso.

Prima di parlare della tecnologia, vorrei chiarire il legame. Mi ero incuriosito per la storia del "nuovi video porno" della Sarti, e ho dato un'occhiata in giro. Ho trovato pero' le solite 3/4 foto che vengono dal vecchio hack della casella postale della Sarti, quindi mi sono chiesto "ma di cosa stiamo parlando, allora?"

Cosi' sono andato a cercare un momento per darknet, e ancora una volta non ho trovato che quelle poche foto risalenti a diversi anni fa. Piu' alcuni video.

Ma il guaio di quei video e' che sono falsi: sono stati costruiti con una tecnologia detta "deep fake". Si tratta di una tecnica che ormai e' disponibile a tutti. Chiunque puo' scaricare il programma e farlo girare, per mettere la faccia di tizio al posto della faccia di caio in un dato video.

https://github.com/iperov/DeepFaceLab

https://github.com/deepfakes/faceswap

L'effetto puo' essere preciso quanto questo (Emma Watson ovviamente non ha mai girato questo video:

O se viene male (per diversi motivi ) puo' avere questo problema:

Quindi quando dico che "si vede che non e' la Sarti" intendo dire che si vede proprio. Si tratta di tentativi maldestri da parte di chi non ha mai capito come funzioni il gioco. E non sa che nel porno si usa il "fisheye" per ingrandire i genitali, quindi la AI deve essere edotta di questa trasformazione. (nel caso sopra, appunto, la AI ha imparato il fisheye ma non sa che si applica solo ai genitali, quindi lo ha applicato alla faccia)

Vediamo di spiegare come funzionino, poi vi dico per quale ragione sono allarmanti.

Si tratta di una variante della correzione dell'errore.

Diciamo che io scriva, per errore, (come ho fatto), "Fukushima" anziche' "Fukuyama" , per indicare un filosofo. Chi sa di cosa io stia parlando, prendera' la parola e la correggera'. Insomma, voi sapete chi sia Francis Fukuyama, cogliete il riferimento alla sua idea di storia "che e' arrivata alla fine" e correggete il mio errore.

Sono tre fasi:

  • Sapete di Francis Fukuyama.
  • Vedete un contesto ove ci dovrebbe essere Francis Fukuyama.
  • Leggete Fukushima.
  • Ci mettete , mentalmente, Fukuyama.

Adesso prendiamo una rete neurale. Gli facciamo vedere sempre e solo la fotografia di Emma Watson. Le facciamo imparare a memoria la sua faccia. A questo punto le proponiamo un porno di un'altra attrice somigliante. La rete fara' la stessa cosa:

  • "Sa" il viso di Emma Watson.
  • Vede un contesto ove c'e' un viso.
  • Legge il viso sbagliato.
  • Ci mette Emma Watson.

Semplice: correzione dell'errore.

Ci sono molti modi di farlo e diverse scuole di pensiero. Ma ormai questi tools si scaricano online, e a patto di capire che occorre usare determinate immagini, correggere la palette e stare attenti ad alcuni dettagli, la cosa funziona abbastanza bene.

Quindi i video che ritraggono Giulia Sarti sono dei pessimi deep fakes. Segno di dilettantismo. Anche perche', per quanto io sia fiducioso nella vita sociale di Giulia Sarti, dubito che frequenti spesso  il pelato di Brazzers.  Voglio dire, almeno metteteci un attore piu' anonimo. Inoltre, sarebbe meglio usare la voce della Sarti: ogni donna fa quel che vuole a letto, ma di bolognesi che si mettono a parlare inglese con un accento dello Yowa quando fanno anal, non ne ho mai incontrate. Magari le cose sono cambiate da quando me ne sono andato dalla citta'.

Ammetto che il mio campione rappresentativo sia troppo piccolo per fare queste affermazioni: se conoscete donne bolognesi che durante il sesso anale si mettono a parlare in inglese americano con accento dello Yowa, scrivetelo. Magari sono stato (s)fortunato io.

Ma se guardiamo quei video senza audio e se fingiamo di non conoscere il pelato di Brazzers, il video porno della Sarti c'e'.

E qui c'e' il punto. Perche' siamo arrivati al momento in cui possiamo falsificare qualsiasi prova documentale di tipo audio e video.

Un tempo queste cose le facevano solo al cinema. Ma adesso che le schede grafiche sono quel che sono, con una GPU e/o qualche dollaro di TensorFlow potete farvi un video qualsiasi mettendoci la faccia di chiunque come protagonista.

Quindi siamo agli interrogativi che ne conseguono:

  • Perche' continuiamo a tenere il valore legale di fotografie, video e audio nei tribunali?
  • Perche' continuiamo a dire "c'e' il video" come a dire "ci sono le prove"?
  • Perche' continuiamo a dire "abbiamo la fotografia di X che fa Y?"

Ed e' ovvio che la vostra prossima obiezione sara': ma allora di chi possiamo fidarci?

Corretto.

Pensate alla propaganda, per esempio alla disinformazione. Con queste tecnologie a spasso per il mondo, chiunque puo' creare il video del politico X che dice Y. E non vi illudete, perche' contraffare la voce e' anche piu' semplice: si tratta di una banda passante tutto sommato piccola  di una decomposizione in frequenza , un prodotto scalare e di una ricomposizione. Niente di che.

Queste tecnologie stanno per entrare in una fase nella quale video, fotografie e audio saranno una commodity a disposizione di chiunque: in teoria, domani una star molto titolata potrebbe fare miliardi cedendo i diritti del proprio volto senza mai girare un film. E non e' una cosa strana: se fatto in laboratorio, cioe' con dovuti accorgimenti in termini di palette e di luci, succede che l'attore o l'attrice devono scattare due o tre foto, qualche professionista si trucca e gira la scena, e poi ci mettono sopra la sua faccia. Niente di che: controllando luci, trucco e la regolazione della telecamera, la vita per la AI e' ancora piu' semplice.

Ma io non mi sto ponendo il problema dell'impatto sul mondo del lavoro. Magari nasceranno anche videogiochi ove potrete usare la faccia della vostra attrice preferita.

Mi sto ponendo il problema in due ambiti  piu' "politici":

  • Quello della propadanda: e' possibile creare fake news con tanto di video e audio a supporto.
  • Quello della giustizia: sono considerate prove delle cose vastamente falsificabili.
  • Quello del giornalismo: in che modo il giornale che compra un video da una persona "sul posto" sa che e' originale?

Si tratta di un potenziale impatto tremendo. L'opinione pubblica infatti crede ancora ai video , alle fotografie, agli audio. La propaganda ha un'arma tremenda in mano, le fake news possono scalare oltre ogni immaginabile.

Un magistrato poco onesto , e ce ne sono tanti  , potrebbe tranquillamente decidere di "aiutare l'inchiesta" , quando non semplicemente dare per buona la documentazione prodotta dal querelante. "Ho il video del mio vicino che fa sesso col mio cane".

Si tratta di un allarme che la stampa sta sottovalutando. E lo fa diversi motivi.

  • Dire "non fidatevi piu' di audio, foto e video" significa dire "non fidatevi del nostro prodotto"
  • Recentemente hanno iniziato ad utilizzare questa tecnica, considerandola una variante video di Photoshop, che gia' usavano largamente sulle fotografie.

Di conseguenza, la stampa difficilmente vi dira' che oggi come oggi e' possibile produrre qualsiasi "evidenza" che abbia chiunque come protagonista. Facendo cosi' il gioco di chi sparge propaganda.

Quelli che hanno creato i deep fakes della Sarti sono dei dilettanti. E si vede.

Ma potrebbero arrivare i professionisti.

E se arrivano dei professionisti, prendono una ragazza che somigli di suo alla Sarti, e ci mettono di mezzo questa tecnologia, non riesco a capire in che modo sarebbe possibile distinguere il falso dal vero, specialmente in un filmato che poi avrebbe la qualita' ridotta al livello "amatoriale". E' come fare una perizia vocale su una telefonata: fate pure, se ci credete. Ma solo se ci credete.

Non so quando , con il deepfake, arrivera' il primo "incidente serio". Non so chi sara' il "paziente zero": di sicuro la Sarti e' salva, perche' i deepfake sono tutti penosi e facilmente confutabili.

Ma prima o poi succedera': e allora si', che per il mondo della stampa bisognera' trovare alternative.  La prima volta che qualche famoso nome ci finira' dentro, improvvisamente l'opinione pubblica capira' che nessuna prova giornalistica e' piu' tale.

E poi? Cosa sara' della stampa quando nessuno potra' piu' dire di "documentare i fatti", quando "documentare" sara' una parola vuota? E dei tribunali?

E della politica?