Futuro

Non solo ChatGPT, da Google l’IA che crea musica da testo

Il 2023 sarà l’anno dell’intelligenza artificiale visibile e a disposizione di (quasi) tutti. Così ci renderemo conto di tutti i suoi limiti, dai pregiudizi alle qualità umane che rimangono peculiarità dei nostri impieghi
Credit: Alessandro Nofi
Tempo di lettura 5 min lettura
3 febbraio 2023 Aggiornato alle 06:30

Lo scorso anno è stata la fase delle immagini prodotte a partire da una semplice descrizione testuale.

Algoritmi e piattaforme come Dream, StarryAI, Craiyon e altri più sofisticati sono stati progressivamente aperti all’utenza generale che si è ritrovata alle prese con i sistemi di machine learning. Rimanendone spesso impressionati, come testimonia il numero di contenuti pubblicati sulle testate online o sui social media in un’improvvisa fiammata che, fra l’altro, ha contribuito a proseguire l’addestramento di questi sistemi. Ma constatandone, quasi sempre, pregiudizi e limiti che si portano dietro, visto che hanno imparato e continuano a imparare nutrendosi di contenuti realizzati dagli esseri umani.

Fino al fenomeno della fine del 2022, quel Lensa AI che tanti soldi ha spillato agli utenti consegnando loro dei set di ritratti nuovi di zecca ma rielaborati a partire da un pugno di selfie. Non veri ma verosimili. La solita app dalle uova d’oro che aggiornata al momento giusto con il giusto passatempo è riuscita a innescare un piccolo-grande fenomeno.

A cavallo fra 2022 e 2023, invece, è esplosa la febbre da ChatGPT - dove GPT sta per Generative Pre-trained Transformer 3 - il formidabile chatbot sviluppato dalla californiana Open AI sulla base dei suoi modelli conversazionali GPT-3: un sistema dialogico con quale chiacchierare e a cui domandare quasi qualsiasi cosa, dalle attrazioni imperdibili di un borgo sperduto sugli Appennini o di un villaggio in Tasmania a un pezzo di codice informatico per velocizzare la programmazione fino a testi di ogni tipo e consulenze assortite. Anche se a dirla tutta, l’approccio di queste settimane è stato più del genere sbalordito che consapevole: i giornalisti, per esempio, ci si sono misurati per capire quanto tempo manchi all’estinzione del loro lavoro, dimenticando che scrivere un articolo è solo l’ultimo pezzetto di un puzzle fatto di relazioni, competenze e soprattutto notizie vere e non riassuntini da fonti online. Aspetti che nessuna intelligenza artificiale potrà mai rimpiazzare. Per quanto la creatività in senso lato sia destinata a cambiare forme e pratiche.

Il 2023 sarà dunque, senza alcun dubbio, l’anno dell’intelligenza artificiale. Non perché algoritmi e soluzioni simili non ci circondino già, dalle mappe ai sistemi di controllo dei contenuti sui social, dalla sorveglianza agli acquisti online. Ma perché questi meccanismi cominceremo a “vederli” più chiaramente in azione. E saranno accessibili praticamente a chiunque, senza particolari competenze (se non inserire il “prompt” giusto nella richiesta) né necessità di appartenere a qualche ristretta comunità di esperti o tecnologi.

Saranno, proprio come nel caso di Lensa AI, funzionalità integrate in applicazioni dal solo scopo ludico o creativo. In certi casi rimarranno ancora al centro di studi e indagini per esperti a cui, però, diamo sempre più spazio e attenzione proprio perché ci siamo sporcati le mani. Come alle ultime due novità in arrivo rispettivamente da casa Microsoft (con lo zampino di Meta) e da casa Google.

La prima si chiama Vall-E ed è un’intelligenza artificiale in grado di replicare la voce di un essere umano in ogni suo aspetto, dal tono al timbro fino all’intonazione e alla tipologia di conversazione. Tutto questo partendo da un breve campione di appena tre secondi. Anche in quel caso basterà inserire il testo desiderato e la piattaforma sviluppata da Redmond sulla base di una library di voci umane, gliela farà pronunciare. Se vi sembra fantascienza basta ascoltare qualche esempio qui.

La seconda si chiama MusicLM: addestrata con un volume di dati da 280.000 ore di musica, può generare musica inedita o rielaborazioni originali a partire, pure in questo caso, da un input testuale (ma anche grafico). E perfino circostanziato, dunque di contesto e non troppo specifico.

In sostanza, così come oggi ChatGPT redige un racconto su ordinazione, in base a pochi elementi di partenza, un domani (piuttosto prossimo) MusicLM potrà – come si legge in un paper scientifico diffuso da Google, che pure sta lavorando a un’intelligenza artificiale generale battezzata Sparrow che farà concorrenza a ChatGPT - produrre “la melodia rilassante di un violino accompagnata da un riff di chitarra distorto”. MusicLM ci ha già deliziato con una serie di improbabili cover di “Bella ciao”, riprodotta a partire da dieci secondi dello storico brano popolare fischiettati o canticchiati. Potevamo farne a meno ma non è quello il punto.

Se, dunque, negli ultimi due anni erano quasi solo gli esperti a svelarci le potenzialità e la versatilità dei sistemi di machine learning e delle reti neurali artificiali basate sull’apprendimento per rinforzo, oggi possiamo rendercene conto in maniera diretta e spesso epifanica. Quasi infantile. In positivo, certo, ma si spera anche maturando la consapevolezza di tutti i limiti che, ancora a lungo, queste intelligenze si portano dentro. Su tutti i bias con cui per esempio – nel caso dei sistemi text-to-image - rappresentano una coppia di fidanzati, un manager d’azienda o un ruolo in posizione di vertice, quasi sempre proponendo ritratti maschili. ChatGPT, in questo senso, sembra fermarsi appena più a metà strada. Salvo sfondoni per i quali, almeno, chiede scusa.

Leggi anche
Intelligenza artificiale
di Fabrizio Papitto 3 min lettura
AI
di Fabrizio Papitto 2 min lettura