Ho creato il mio clone AI utilizzando Google Gemini

Esplorazione dello strumento avatar Gemini AI di Google per creare un clone digitale. Scopri come funziona la generazione di video AI realistici e perché è inquietante.
La prospettiva di creare una versione digitale di me stesso sembrava pura fantascienza solo pochi anni fa. Eppure eccomi qui, con in mano uno smartphone con l'ultimo strumento avatar Gemini AI di Google, e osservavo l'app prepararsi a trasformarmi in un duplicato sintetico. La tecnologia prometteva di generare contenuti video realistici con una riproduzione perfetta al pixel del mio viso, della mia voce e dei miei modi. Essendo una persona che si occupa di tecnologie emergenti, mi sono sentito obbligato a testare questa innovazione in prima persona, nonostante le domande filosofiche che turbinavano nella mia mente sulle implicazioni di capacità di intelligenza artificiale così potenti.
Google ha posizionato questa funzionalità di creazione di avatar AI come uno strumento rivoluzionario per creatori di contenuti, educatori e professionisti che cercano di ampliare la propria presenza digitale. L’azienda immagina un futuro in cui le persone possano generare contenuti video personalizzati su larga scala, senza la necessità di apparire fisicamente davanti alla telecamera per ogni sessione di registrazione. Ciò potrebbe teoricamente consentire agli insegnanti di creare variazioni illimitate delle lezioni, agli influencer di mantenere programmi di contenuti coerenti e ai professionisti di comunicare con i clienti in diversi fusi orari e contesti. Tuttavia, le dimensioni etiche legate all'abilitazione di tale tecnologia rimangono oggetto di accesi dibattiti all'interno della comunità etica dell'IA.
Il processo di configurazione è stato sorprendentemente semplice. Dopo aver scaricato l'app Gemini sul mio dispositivo Android, sono passato alla funzione di creazione dell'avatar e mi è stato chiesto di fornire diverse foto e un breve esempio video di me stesso che parlavo in modo naturale. Il sistema doveva catturare le mie caratteristiche facciali da più angolazioni e analizzare i miei schemi vocali per costruire un modello digitale accurato. In pochi minuti, l’intelligenza artificiale ha elaborato i miei dati biometrici e ha confermato di disporre di informazioni sufficienti per generare contenuti video realistici. La velocità di questo processo stesso sembrava notevole, qualcosa che avrebbe richiesto studi professionali di motion capture e settimane di lavoro di post-produzione solo dieci anni fa.
Il mio primo video generato è stato forse il più inquietante. Ho visto una mia interpretazione digitale, seduta alla scrivania e con indosso la stessa maglietta che avevo indossato durante la sessione di allenamento, consegnare un messaggio scritto da me. La qualità video sintetica era inquietantemente accurata. L'avatar sbatteva le palpebre a intervalli appropriati, spostava lo sguardo in modo naturale e imitava persino sottili espressioni facciali che trasmettevano emozioni. La sincronizzazione labiale era quasi perfetta, corrispondendo alla traccia audio che avevo fornito, con solo piccole imperfezioni che la maggior parte degli spettatori occasionali non avrebbe mai notato. Tuttavia, nel risultato rimaneva qualcosa di indefinibilmente "strano": un fenomeno che i ricercatori chiamano "valle perturbante", in cui le rappresentazioni artificiali degli esseri umani diventano inquietanti proprio perché sono troppo vicine alla realtà senza essere completamente autentiche.
La sintesi vocale meritava un'attenzione particolare. Invece di utilizzare una voce generica generata dal computer, il sistema aveva analizzato il mio modo di parlare, il mio accento e la cadenza vocale per produrre un audio che assomigliasse notevolmente alla mia voce reale. Potevo sentire il modo caratteristico in cui enfatizzo certe parole, il leggero raschio in gola quando pronuncio certe consonanti e persino lo schema del respiro tra le frasi. Era come sentirmi parlare, ma leggermente filtrato attraverso una lente artificiale. Qualcuno che mi conosce bene probabilmente potrebbe identificare sottili differenze con un ascolto mirato, ma per gli osservatori casuali la voce sembrerebbe in modo convincente la mia.
Il test dei limiti dell'avatar ha rivelato dove la tecnologia attualmente non è all'altezza. Ho tentato di generare un video caratterizzato da gesti complessi delle mani e movimenti dinamici attraverso l'inquadratura. Le mani dell'avatar rimanevano per lo più statiche e, quando si muovevano, i movimenti apparivano rigidi e poco convincenti. La tecnologia fatica anche con angoli della testa estremi e movimenti rapidi. Se scrivessi contenuti che richiedessero di camminare per una stanza o di interagire con oggetti fisici, l'avatar si bloccherebbe o tornerebbe a una posa statica. Questi vincoli suggeriscono che la tecnologia è ottimizzata per contenuti in stile "testa parlante", il tipo di formato video semplice che comprende gran parte di contenuti educativi, comunicazioni aziendali e social media.
Dal punto di vista creativo, le possibilità di generazione di contenuti digitali sono davvero entusiasmanti. Immagina di poter registrare il tuo messaggio una volta e quindi generare dozzine di variazioni con diverse inflessioni, sfondi o sottili modifiche allo script senza richiedere ulteriori sessioni di registrazione. Gli insegnanti possono creare versioni personalizzate delle lezioni rispondendo alle esigenze dei singoli studenti. I professionisti delle vendite possono generare presentazioni video personalizzate per potenziali clienti. I rappresentanti del servizio clienti potrebbero creare risposte video che sembrino personali pur essendo generate su larga scala. I miglioramenti in termini di efficienza per i creatori di contenuti e le istituzioni sarebbero sostanziali.
Tuttavia, la tecnologia apre contemporaneamente la porta a scenari preoccupanti che meritano una seria considerazione. La facilità con cui ho potuto generare video in cui dico cose che in realtà non ho mai detto solleva preoccupazioni immediate sul consenso e sull'autenticità. Qualcuno con accesso ai miei dati biometrici potrebbe teoricamente creare video in cui approvo prodotti, faccio dichiarazioni controverse o sembro partecipare a eventi a cui non ho mai partecipato. Ciò rappresenta un’evoluzione significativa nella tecnologia deepfake, passando dalla manipolazione ad alta intensità di lavoro di singoli video alla produzione rapida e industrializzata di media sintetici. Le implicazioni in termini di disinformazione, frode e manipolazione sono sostanziali.
Google ha implementato diverse misure di salvaguardia volte a prevenire l'abuso di questa tecnologia. Il sistema richiede il consenso esplicito prima di creare un avatar, documenta accuratamente il processo di consenso e include funzionalità di filigrana per identificare contenuti video generati dall'intelligenza artificiale. La società prevede inoltre termini di servizio che vietano la creazione di contenuti destinati a ingannare o frodare. Tuttavia, queste misure fanno molto affidamento sull'implementazione tecnica e sull'onestà dell'utente, e la storia dell'implementazione della tecnologia suggerisce che attori determinati troveranno il modo di aggirare le restrizioni, in particolare quando gli incentivi economici per farlo sono sostanziali.
La domanda più ampia che solleva questa tecnologia riguarda la natura dell'autenticità nel nostro mondo sempre più digitale. Accettiamo già che i profili dei social media non rappresentino versioni non filtrate della vita delle persone: sono presentazioni curate e realizzate per l'accoglienza del pubblico. Eppure c'è una distinzione tra la presentazione selettiva di esperienze autentiche e la creazione sintetica di esperienze interamente fittizie. Quando guardiamo un video di qualcuno che parla, attualmente operiamo partendo dal presupposto che rappresenti qualcosa che è realmente accaduto. Se i media sintetici diventano indistinguibili dai video autentici, tale presupposto fondamentale crolla. I nostri quadri epistemici per valutare l'affidabilità e l'autenticità necessiterebbero di una ricalibrazione fondamentale.
La tecnologia solleva anche interrogativi sull'identità e sulla proprietà. Se Google possiede un modello biometrico dettagliato del mio viso e della mia voce, cosa impedisce all'azienda di generare contenuti con le mie sembianze senza il mio consenso costante? Cosa succede a questi dati se il mio account viene compromesso o se la società viene acquisita? Le aziende tecnologiche hanno storicamente lottato con la sicurezza e la privacy dei dati, e la posta in gioco con i dati biometrici utilizzati per generare media sintetici è più alta rispetto alle informazioni personali convenzionali. Mi sono ritrovato a fare ricerche sulle politiche di conservazione dei dati e sulle procedure di eliminazione dell'azienda, rendendomi conto di avere un controllo limitato su una risorsa digitale estremamente preziosa.
La sensazione inquietante che ho provato guardando il mio avatar non era principalmente dovuta alla paura di scenari distopici. Piuttosto, derivava dalla stranezza viscerale di osservare una copia perfetta di me stesso che operava in modo indipendente, dicendo parole che sceglievo ma pronunciandole con una voce che sembrava la mia ma non lo era. Rappresentava una strana biforcazione dell'identità: una versione di me che poteva esistere e agire senza la mia presenza fisica. Filosoficamente, ciò solleva domande sull'autenticità e sulla presenza che si estendono oltre il tecnologico fino all'esistenziale.
Mentre continuavo a sperimentare con lo strumento avatar Gemini, ho scoperto usi legittimi che mi entusiasmano a livello professionale e allo stesso tempo mi mettono a disagio con il potenziale della tecnologia. Questa funzionalità rappresenta un vero progresso nella tecnologia di creazione di contenuti, offrendo funzionalità che probabilmente diventeranno strumenti standard in molte professioni entro i prossimi anni. Tuttavia rappresenta anche un punto di svolta significativo nel rapporto tra autenticità, media e fiducia nella comunicazione digitale. Non siamo ancora al punto in cui il video sintetico è indistinguibile dal video autentico, ma siamo più vicini di quanto la maggior parte delle persone creda e il divario si riduce a ogni iterazione del modello.
Per ora ho salvato i video generati ma non li ho condivisi ampiamente. Sembrano esperimenti piuttosto che una comunicazione genuina, artefatti dell'esplorazione di nuove tecnologie piuttosto che espressioni autentiche che voglio associare alla mia identità. Tuttavia, riconosco che questa distinzione potrebbe diventare sempre più sfumata man mano che i video con intelligenza artificiale generativa diventano più sofisticati e comuni. La sensazione inquietante che ho provato potrebbe svanire man mano che la società si adatta collettivamente ai media sintetici, oppure potrebbe rappresentare una risposta istintiva giustificata alla tecnologia che merita un’attenta considerazione etica. In ogni caso, il genio è uscito dalla bottiglia e i creatori, le piattaforme, i regolatori e la società in generale devono esplorare con attenzione le implicazioni di un mondo in cui è possibile creare doppi digitali perfetti di noi stessi con pochi tocchi sullo schermo di uno smartphone.
Fonte: Wired


