Futuro

Il video è la prossima frontiera dell’IA?

I software text-to-video permettono di realizzare scene in movimento a partire da input verbali e promettono di rivoluzionare il mercato del cinema. Ma i problemi da risolvere sono ancora molti, a cominciare dalla nostra sicurezza
Credit: Steve Johnson
Fabrizio Papitto
Fabrizio Papitto giornalista
Tempo di lettura 6 min lettura
7 aprile 2023 Aggiornato alle 17:00

Software come il vituperato Midjourney o Dall-E, sviluppato dalla madre di ChatGPT, OpenAI, ci hanno abituato in poco tempo a vedere brevi input di testo trasformarsi in immagini fisse più che realistiche, o perfino nelle illustrazioni di veri e propri libri in vendita anche su Amazon.

Il 20 marzo, la startup di intelligenza artificiale Runway ha però annunciato Gen-2, un sistema di AI multimodale che consentirà di creare video a partire dal testo (text-to-video), in quella definita da diversi esperti la prossima frontiera dell’IA generativa.

Lo stesso giorno Kelsey Rondenet, portavoce dell’azienda, aveva dichiarato al quotidiano The Verge che Runway avrebbe fornito “un ampio accesso” al nuovo tool “nelle prossime settimane”.

Al momento tuttavia il servizio è ancora in fase di test, nonostante dia la possibilità a chi voglia provarlo di mettersi in lista d’attesa.

Diverse clip disponibili sul sito della piattaforma, per quanto acerbe, lasciano però intravedere i possibili sviluppi di una tecnologia che potrebbe rivoluzionare l’industria del digitale.

Si pensi soltanto all’impatto in settori come il gaming o il cinema, che già utilizza l’intelligenza artificiale per accelerare i tempi e diminuire i costi di produzione.

Il regista e specialista di effetti visivi Evan Halleck ha utilizzato il software di Runway per realizzare una delle sequenze più esilarati del film vincitore di 7 premi Oscar Everything Everywhere All at Once, che mostra due rocce mentre intrattengono una conversazione escatologica all’interno di un canyon della California.

Il ceo di Runway, Cris Valenzuela, la chiama “Hollywood 2.0”, e profetizza l’avvento di una realtà nella quale «tutti saranno in grado di realizzare i film e i successi che solo una manciata di persone era in grado di fare prima».

Allo stesso tempo, la possibilità di generare contenuti video amatoriali in poche mosse rappresenterebbe un ulteriore fattore di rischio per l’informazione, già compromessa dai sistemi text-to-image o dall’impiego dei cosiddetti video deepfake.

Runway non è l’unica società che si sta muovendo in questa direzione.

Nell’autunno dell’anno scorso, due colossi come Google e Meta hanno dato notizia rispettivamente di Imagen Video e Make-A-Video, due sistemi text-to-video in fase di implementazione che non sono ancora stati rilasciati proprio a causa delle loro possibili implicazioni sociali.

«Sebbene i nostri test interni suggeriscano che gran parte dei contenuti espliciti e violenti possono essere filtrati, esistono ancora pregiudizi sociali e stereotipi che sono difficili da rilevare e filtrare», si legge in documento di ricerca rilasciato da Google. «Abbiamo deciso di non rilasciare il modello Imagen Video o il suo codice sorgente fino a quando queste preoccupazioni non saranno mitigate», conclude la società.

Google è al lavoro anche su un secondo modello generativo chiamato Phenaki, un sistema più avanzato che consente di creare video della durata di diversi minuti.

«Sebbene la qualità dei video generati da Phenaki non sia ancora indistinguibile dai video reali, arrivare a questo risultato per un set specifico di campioni è nel regno delle possibilità. Ciò può essere particolarmente dannoso se Phenaki deve essere utilizzato per generare video di qualcuno senza il suo consenso e la sua conoscenza», si legge nella dichiarazione etica pubblicata dal team di Google Brain.

Inoltri gli sviluppatori osservano come in particolare Laion-400M, uno dei set di open data utilizzato per l’addestramento di Phenaki, presenti «una varietà di problemi riguardanti la violenza, la pornografia, il sangue», ma precisano che la versione «attualmente in fase di addestramento» utilizzi una serie di set di dati che «minimizza tali problemi».

Un altro problema riguarda l’utilizzo di immagini potenzialmente protette da copyright. «I set di dati pubblici di immagini e video possono contenere esempi il cui stato di proprietà non è chiaro o impossibile da verificare», sottolineano gli sviluppatori.

A febbraio di quest’anno, la nota agenzia fotografica Getty Images ha citato in giudizio la società Stability AI accusandola di aver elaborato illegalmente milioni di immagini protette da copyright per l’addestramento del suo software text-to-image Stable Diffusion.

Ma la questione interssa non solo i contenuti preesistenti utilizzati senza licenza, ma anche il potenziale uso dei contenuti generati ex novo dai sistemi di intelligenza artificiale.

«Uno dei maggiori rischi qui è che questi motori possano generare la nostra proprietà intellettuale in modi nuovi, e questo è nelle mani del pubblico», ha commentato al Wall Street Journal il vicepresidente esecutivo della Paramount Phil Wiser, che dichiara di aver riunito una squadra di esperti per personalizzare gli strumenti AI e assicurarsi così la proprietà intellettuale dei prodotti.

Su questi temi si è aperto un dibattito pubblico ancora in corso per disciplinare l’utilizzo dell’intelligenza artificiale.

Il 29 marzo, il Future of Life Institute ha pubblicato una lettera aperta, sottoscritta da oltre 13.000 esperti, ricercatori, imprenditori e cittadini, per chiedere di «sospendere immediatamente per almeno 6 mesi l’addestramento di sistemi di intelligenza artificiale più potenti di GPT-4».

Tra i firmatari anche Elon Musk e il cofondatore di Apple Steve Wozniak, oltre a diversi dipendenti di Google, Microsoft e Meta – incluso il responsabile IA – e a decine di professori, borsisti ed ex allievi del Massachusetts Institute of Technlogy (Mit).

«Potenti sistemi di intelligenza artificiale dovrebbero essere sviluppati solo quando saremo certi che i loro effetti saranno positivi e i loro rischi saranno gestibili», si legge nel documento, dove si chiede agli sviluppatori di collaborare con i responsabili politici per «accelerare drasticamente lo sviluppo di solidi sistemi di governance».

Il teorico dell’IA Eliezer Yudkowsky, cofondatore del Machine Intelligence Research Institute per lo sviluppo sicuro e affidabile dell’intelligenza artificiale, ha definito la lettera un «miglioramento», ma ha dichiarato di essersi astenuto dal firmare in quanto ritiene che l’appello «sottostimi la gravità della situazione e chieda troppo poco per risolverla».

In un articolo apocalittico pubblicato sul Time, Yudkowsky afferma letteralmente che se non spegniamo tutte le macchine «moriremo tutti», e che prevenire lo scenario dell’estinzione del genere umano causata dall’IA è prioritario rispetto a quello di una guerra nucleare.

Speriamo che, in quanto essere umano fallibile, Yudkowsky si sbagli.

Leggi anche
Algoritmi
di Luca De Biase 4 min lettura