Chi ha rubato la voce di Scarlett Johansson? L’accusa dell’attrice, la difesa di OpenAI
Qualcuno ha rubato la voce di Scarlett Johansson, dice la stessa attrice e cantante. Ma il presunto colpevole dell’impensabile furto, almeno fino all’attuale sviluppo della tecnologia non solo nega l’addebito, ma ha recentemente fornito al Washington Post le prove che libererebbero Altman e la sua compagnia dall’accusa della celebre attrice.
Che ha aperto le danze dichiarandosi «scioccata, arrabbiata e incredula» per la nuova voce di ChatGPT 4.0 (una delle cinque, a dire il vero) , che suonava «spaventosamente simile» alla sua.
Chi ha rubato la voce di Scarlett Johansson?
La storia comincia con l'”aggiornamento primaverile” di ChatGPT, la versione 4.o (dove la o è la lettera e sta per “omni”, con riferimento alla sua capacità di spaziare tra testo, immagini e suoni), col quale sono state annunciate cinque voci: Sky, Juniper, Breeze, Cove ed Ember.
A onor del vero ChatGPT, quantomeno nelle sue versioni Plus ed Enterprise, aveva già da settembre 2023 il supporto audio, diventando un LLM in grado non solo di rispondere ad input testuali, ma di ascoltare e parlare con inflessioni sempre più realistiche
Il problema però nasce con Sky, una delle cinque voci che a Scarlett Johannson sembra sin troppo familiare. Nella ricostruzione degli eventi fornita dall’attrice, OpenAI l’avrebbe contattata dapprima a Settembre 2023, e poi recentemente, per ottenere la sua voce per ChatGPT 4.o. Scarlett Johansson avrebbe quindi rifiutato “per ragioni personali”.
Arrivati all’aggiornamento primaverile, dapprima Sam Altman annuncia la cosa con un laconico post X (ex Tweet) contenente la parola “her”, riferimento esplicito al film Lei, in cui Scarlett Johansson presta nome e volto a Samantha, evolutissima intelligenza artificiale di cui lo scrittore Theodore si invaghisce perdutamente, e poi presenta le cinque voci.
Tra cui Sky, descritta da alcuni commentatori dello spezzone audio come [una donna] che sta per levarsi di dosso i vestiti, ovvero, ma ne parleremo in seguito, col solito tono tra l’estremamente condiscendente, il vapido e il sottomesso cui anni di IA e assistenti virtuali “parlanti” ci hanno abbituato.
L’accusa dell’attrice
Scarlett Johansson a questo punto si riconosce nella vapida voce virtuale
«I miei amici, la mia famiglia e il pubblico in generale», ha dichiarato Scarlett, «hanno notato quanto la voce del nuovo sistema chiamato “Sky” assomigliasse alla mia».
«Quando ho sentito la demo rilasciata, sono rimasta scioccata, arrabbiata e incredula per il fatto che il signor Altman avesse scelto una voce talmente simile alla mia, che i miei amici più cari e gli organi di informazione non erano in grado di distinguerla».
Chiedendo, e ottenendo, immediatamente il ritiro di Sky.
Il motivo fa riferimento alle recenti proteste ad Hollywood ed al recente sciopero del sindacato degli attori SAG-AFTRA e del sindacato degli scrittori e scenettiatori, durato dal 14 Luglio al 9 Novembre 2023 per chiedere, tra l’altro, una moratoria e una regolamentazione dell’uso delle AI per “sostituire” spezzoni audiovideo di attori esistenti, chiedendo che
«In un momento in cui siamo tutti alle prese con i deepfake e la protezione del nostro aspetto, del nostro lavoro, delle nostre identità, credo che queste siano questioni da affrontare con assoluta chiarezza».
Sky è stata ritirata, ma non la controversia.
Le difesa di OpenAI
Secondo Altman Sky non è una copia virtuale di Scarlett Johansson, ma una voce “prestata” da una attrice anonima, regolarmente assunta della quale sono noti solamente i tratti del bando di assunzione, che a ben vedere liberano Altman dall’accusa di “furto di voce” ma spalancano un intero portone del dibattito.
L’anonima donna nota come “Sky di ChatGPT” avrebbe dovuto infatti essere una attrice
“non sindacalizzata, dalle sonorità paragonabili a un’età compresa tra i 25 e i 45 anni, suadente, coinvolgente e carismatica”
Enfasi preoccupante su quel “non sindacalizzata” (non-union), comunque. La stessa avrebbe rilasciato una dichiarazione scritta attestando che «questa è la mia voce originale e non sono mai stata paragonata a Scarlett Johansson da nessuno che mi conosce dal vivo», e aggiungendo che era stata «adeguatamente informata su quali sarebbero state le implicazioni di prestare la propria voce a ChatGpt».
Ulteriori affermazioni del suo agente affermano che la scelta di Sky sia stata determinata dal timbro “fresco e piacevole” dell’attrice che si è preferito lasciare anonima.
Ovviamente, il fatto che Scarlett Johansson abbia esattamente 39 anni, trovandosi quindi nella fascia di età di Sky potrebbe rientrare sia nella casualità che nella deliberata scelta di una voce femminile e suadente con quel pizzico di attrattiva richiamata da Lei ed altra filmografia e letteratura.
Tanto non è bastato però a persuadere Scarlett Johansson.
I problemi aperti – Il caso Bette Midler
Mettiamola così: uno dei problemi che andranno temo ormai risolti per le vie legali tra la Johansson e OpenAI è che in realtà ci sono due Sky: la prima Sky è quella ancora disponibile nei modelli a pagamento esistenti, la seconda Sky, quella ascoltata da Scarlett Johansson, è la protagonista della demo estiva.
Bisognerà quindi togliersi il dubbio definitivo se l’attrice interpellata dal Washington Post sia la prima e la seconda.
Ma anche così, la giurisprudenza Americana non pone una differenza tra una voce clonata e imitata.
Nel 1985, ben prima dell’era delle AI, Ford Motors cercò di assumere Bette Midler, cantante di Honolulu, per uno spot in cui avrebbe dovuto cantare la sua allora celeberrima cover del brano di Bobby Freeman Do you wanna dance?
Incassato il rifiuto della Midler, la Ford pensò bene di assumere una backup vocalist e tirare fuori uno spot in cui una sconosciuta avrebbe cantato una canzone tradizionalmente associata a Bette Midler usando le stesse sonorità e una passabile imitazione del timbro vocale di Bette Midler senza essere Bette Midler.
Bette Midler vinse la causa dinanzi al Nono Circuito della Corte di Appello degli USA.
La motivazione fu che, nonostante ovviamente quella non fosse la voce di Bette Midler, ma una voce simile a quella della cantante inserita in un contesto che rendesse l’associazione ancora più facile
Una voce è distintiva e personale quanto il volto. La voce umana è uno dei modi più modo più palpabili in cui si manifesta l’identità. Siamo tutti consapevoli del fatto che un amico possa essere immediatamente riconosciuto da poche parole al telefono.
A livello filosofico è stato osservato che con il suono della voce, “l’altro sta davanti a me”. D. Ihde, Listening and Voice 77 (1976).A maggior ragione, queste osservazioni valgono per il canto, soprattutto per il canto di una cantante di fama. La cantante si manifesta nella
canzone. Impersonare la sua voce significa piratare la sua identità.
Ed essendo Scarlett Johansson una attrice ed una cantante, potremmo affermare che a. la sua voce è effettivamente parte della sua identità tanto quanto il suo viso e b. obiettivamente parlando, se una IA parla con una voce che ricorda la Scarlett Johansson di Lei, l’associazione di idee potrebbe fare il resto.
Come ricorda Jennifer Rothman, professoressa alla University of Pennsylvania, se un ritratto riconoscibile di un viso può costituire sfruttamento dell’immagine di un attore, figurarsi una imitazione identificabile della sua voce, parlata o musicata.
I rischi a lungo termine sono presenti: abbiamo già visto nella rubrica retro come, in tempi assai precedenti all’uso delle AI, i serial televisivi americani ci hanno abituato ad incroci ben più strani. Come il caso dell’attore David J. Fielding, assunto nella prima stagione del telefilm Mighty Morphin Power Rangers per interpretare Zordon, mentore dei giovani eroi, le cui fattezze sono state usate, ridoppiandole, nelle stagioni successive nonostante egli fosse stato pagato solo per le sue “effettive apparizioni” e non virtuali.
O il caso di Felly Kilingi, fotomodella congolese che molti pensano essere la vocalist di Pump up the Jam dei Technotronic semplicemente perché la vocalist reale, Ya Kid K era all’epoca una diciassettenne poco fotogenica e non in grado di apparire in esibizioni pubbliche e si decise di diffondere un video in cui Felly Kilingi si sarebbe esibita in lipsync col risultato di avere Ya Kid K assente dai titoli dell’album nelle prime edizioni.
Tutti temi al centro del citato sciopero SAG-AFTRA e che il caso di Bette Midler potrebbe portare in tribunale.
E resta un secondo ulteriore problema, ma non meno importante ancorché forse meno tecnico-giuridico.
L’elefante nella stanza delle voci femminili nell’arte digitale
Abbiamo un problema, anzi un enorme elefante nella stanza delle AI e delle assistenti virtuali. Non sono stati solo i commentatori nei video a notare l’attitudine al flirt di Sky.
Secondo un report dell’UNESCO citato correttamente da più interpreti nell’egida del diritto, della società e della tecnologia, Siri e Alexa ci hanno abituato a figure femminili ammiccanti, obbedienti e sottomesse.
Un piccolo esercito di Samantha di Lei, ma anche di Joi, l’IA/Assistente personale del film Blade Runner 2049 inesplicabilmente programmata sia coi tratti di memoria eidetica e capacità di ricerca di una assistente personale che coi tratti sottomessi ed erotici dell’amante perfetta (e le fattezze di Ana De Armas in abiti discinti non aiutano).
Il tutto nel report che chiarisce come
“poiché il parlato della maggior parte degli assistenti vocali è di voce femminile, invia un segnale che le donne sono garanti, docili e desiderose di aiutare, che sono sempre disponibili al solo e semplice tocco di un pulsante o con un comando vocale”
Non siamo lontani dalla Donna Esplosiva del film del 1985 e della serie televisiva del 1994, creazione virtuale descritta sin dalle locandine del film come “eccitante e puramente sessuale” il cui unico scopo dopo la sua creazione virtuale è obbedire all’imperativo di rendere i suoi creatori popolari e apprezzati iniziandoli ai pruriti adolescenziali ed alla fama, unendo in sé i poteri di un Genio della Lampada ai timidi pruriti erotici di una generazione di adolescenti.
Ma neppure così lontani dal mito di Pigmalione e Galatea, laddove grazie all’intercessione di Afrodite i primo riesce a scolpire la sua donna ideale nel marmo, plasmandola sia nel corpo che nella mente fino a farne l’amante ideale.
Il tutto misto in questo caso all’Effetto ELIZA, dal celebre ChatBOT, parodia di una psicologa negli anni ’60, nei quali generazioni di utenti hanno emotivamente investito riconoscendo ad un ente “munito di parola” la capacità di attribuire ad esso intelligenza, sentimenti e caratteristiche umane.
In questo caso, se la “donna esplosiva” ha una voce identificabile, de plano o per interpretazione, con una donna realmente esisistente che incidentalmente è un’attrice e due volte vincitrice del riconoscimento per la donna più bella del mondo da Esquire, cosa potrà andare mai storto?
Se il nostro servizio ti piace sostienici su PATREON o
con una donazione PAYPAL.