Machine learning

Scrivi il testo, Google crea l'immagine corrispondente. Ma è una tecnologia che per ora fa paura

"Imagen" usa l'intelligenza artificiale per risultati sorprendenti di text-to-image, che però presenta notevoli ricadute etiche, tanto che l'azienda stessa non l'ha resa disponibile al pubblico

29/05/2022

Celia Guimaraes

Google

Imagen, a text-to-image diffusion model: dipinto a olio di una regina procione

E’ una tendenza emergente nel settore dell’Intelligenza artificiale: i generatori di testo che trasformano una idea in immagini. Sono programmi che, partendo da parole con un senso compiuto, anche se astratto, diventano il corrispettivo visuale della descrizione.

Il risultato, molto realistico, offre una vasta gamma di stili, dai dipinti a olio ai rendering di computer graphics e anche fotografie. Adesso Google è scesa in campo con i suoi potenti mezzi di Machine Learning e la propria versione di text-to-image: si chiama "Imagen" e mette insieme potenza di calcolo e comprensione del linguaggio per arrivare ad un "grado di fotorealismo senza precedenti".

Ecco cosa possono creare: basta scrivere “Due robot a cena in un ristorante con la Torre Eiffel sullo sfondo”, “Astronave rossa che porta un cervello nello spazio”, “Cane con cappello da cowboy che suona la chitarra tra le montagne”, “Statua di marmo di un koala Dj con grandi cuffie”, “Un orsetto Teddy Bear che nuota in una vasca olimpionica”, “Un cane che guarda nello specchio l'immagine rifessa di un gatto”.

Google

Imagen, a text-to-image diffusion model: robot a cena in un ristorante raffinato

Google

Imagen, a text-to-image diffusion model

Secondo Jeff Dean, responsabile AI di Google Brain sistemi di intelligenza artificiale come questi "possono potenziare la creatività congiunta tra uomo e computer", uno degli obiettivi del sistema.

Google

Imagen, a text-to-image diffusion model

Google

Imagen, a text-to-image diffusion model: statua di marmo di un koala dj

Sono immagini impressionanti per coerenza e accuratezza, ma c’è cautela anche da parte del Brain Team di Google che ha sviluppato Imagen: il risultato ottenuto appare perfettamente rifinito, ma potrebbe non rappresentare l'output medio del sistema.

Per questo motivo OpenAI non ha fatto un rilascio al pubblico: l'azienda dà accesso a beta tester selezionati e filtra alcuni input di testo, nel tentativo di impedire che il modello venga utilizzato per generare immagini razziste, violente o pornografiche.

Google ritiene che Imagen "non sia adatto per l'uso pubblico in questo momento" e afferma di voler sviluppare un nuovo modo per combattere i "pregiudizi sociali e culturali nel lavoro futuro". Per ora, dobbiamo accontentarci della selezione proposta e immaginare le potenziali applicazioni di questa tecnologia.

Google

Imagen, a text-to-image diffusion model: Teddy bear nuota

Google

Imagen, a text-to-image diffusion model: un cane allo specchio