Arte e algoritmi

Scrittori e Pittori Artificiali: come l’IA potrebbe battere anche i migliori surrealisti

Da anni l’Intelligenza Artificiale sta sviluppando algoritmi capaci di analizzare le nostre abilità creative in miliardi di testi e immagini, e replicarle – spesso con risultati sorprendenti

Scrittori e Pittori Artificiali: come l’IA potrebbe battere anche i migliori surrealisti
Google
Imagen, a text-to-image diffusion model

Macchine che dialogano e che pitturano come esseri umani. Non è più fantascienza: da anni l’Intelligenza Artificiale (IA) sta sviluppando algoritmi capaci di analizzare le nostre abilità creative in miliardi di testi e immagini, e replicarle – spesso con risultati sorprendenti.

Questo, ad esempio, è il caso dell’immagine generata da DALL-E (nome da leggere “dall-i”, in maniera simile al pittore surrealista Salvador Dalì) di Open AI a partire dalla frase “poltrona a forma di avocado”. Il prodotto di DALL-E sottende non solo capacità creative, ma anche di comprensione del mondo: infatti, il modello ha dovuto riconoscere gli elementi costituenti e identificativi sia dell’avocado (la forma arrotondata, il colore, etc.) che della poltrona (i piedi, gli appoggiabraccia, etc.) per poterli poi fondere armoniosamente.

Negli ultimi mesi la quantità di modelli generativi (così come la loro qualità) è incrementata significativamente. La concorrenza tra più compagnie nel settore dell’IA, insieme sia alla necessità di coprire nuovi mercati che alla crescente domanda per l’automazione dell’industria, hanno fatto sì che lo sviluppo di questi modelli cambiasse passo. Il motivo è che questi modelli sono tanto potenti da poter essere applicati a qualsiasi compito che coinvolga il linguaggio o le immagini (ad esempio, la risposta a domande, il riconoscimento di informazioni in testi o immagini, il supporto alla scrittura, il design, l’architettura, la generazione di slogan, post, commenti o articoli, la produzione di identikit, etc.) e a qualsiasi settore del sapere umano (medicina, legge, finanza, marketing, etc.).

Così è successo che il clamore per la recente la pubblicazione a pagamento da parte di Open AI di GPT-3 (Generative Pretrained Model) si è trasformato in entusiasmo quando la società madre di Facebook, Meta AI, ha divulgato il modello linguistico OPT (Open Pretrained Transformer). I due modelli sono altamente comparabili in termini di performance (entrambi hanno 175 milioni di parametri), ma diversamente da GPT-3, OPT è stato rilasciato con tutti i dettagli di implementazione, il che permette alla comunità scientifica di lavorare al suo miglioramento, sia in termini di qualità che di equità (ad esempio, mitigando pregiudizi e linguaggio tossico che inevitabilmente questi modelli imparano dai dati su cui sono addestrati). La decisione di tenere il sorgente aperto è stata accolta molto positivamente dalla comunità scientifica, che spesso si trova in difficoltà a competere con società che, come Open AI e Meta AI, possono spendere milioni di euro in risorse computazionali per addestrare questi modelli. E in questo rispetto, Meta AI si è guadagnata un altro record, riducendo le emissioni di CO2 necessarie per l’addestramento da 500 a 75 tonnellate.

A distanza di poche settimane dalla sorpresa di OPT, Open AI ha dovuto subire poi un altro affronto da un gigante tecnologico come Google. Il suo ultimo generatore di immagini DALL-E è stato infatti recentemente sorpassato da Imagen, rilasciato nei giorni scorsi da Google Brain. Anche in questo caso, i due modelli si battono in un testa a testa di creazioni di immagini (spesso gattini e cagnolini in contesti e pose divertenti), ma Imagen è sembrato avere la meglio, sia in termini di metriche standard che in termini di opinione di giudici umani.

Insomma, accanto a Dostoevskij e Picasso, nel futuro i nostri libri d’arte e letteratura potrebbero contenere anche qualche autore artificiale.

 

Ma come possono questi modelli creare? I modelli generativi si basano su enormi reti neurali artificiali (artificial neural networks) ispirate alle reti biologiche che sono alla base della nostra intelligenza. In queste reti, milioni di neuroni si inviano segnali, in base agli input che ricevono. Questi modelli sono generalmente addestrati a predire parole o parti di immagini, così da imparare l’interazione tra tali elementi costituenti e il contesto circostante. In questo modo è sufficiente per loro avere uno stimolo iniziale per poi generare il prodotto finito.