Numeri precisi nessuno può averne, anche perché il perimetro delle reali capacità dell'intelligenza artificiale e quindi dei suoi possibili impieghi continua a cambiare. Uno tra gli studi recenti più autorevoli è quello di Goldman Sachs secondo il quale i posti a rischio, a livello planetario, potrebbero essere 300 milioni. A fine marzo anche la stessa Open AI, l'azienda che ha sviluppato ChatGPT, insieme all'università della Pennsylvania ha pubblicato una analisi simile. Dalla quale emerge che negli Stati Uniti otto lavoratori su dieci potrebbero affidare almeno una delle loro mansioni al software. La fonte non è proprio imparziale, ma insomma di che preoccuparsi c'è.

Non è la prima volta che emergono cifre preoccupanti, ma la vera novità è nelle categorie più a rischio. Solo pochi anni fa, nel 2016, uno studio OCSE indicava i lavori meno qualificati come quelli potenzialmente più esposti. Ora, invece, in cima alle classifiche degli impieghi più passibili di essere travolti c'è il lavoro amministrativo seguito dalle attività legali e persino da quelle di architettura e ingegneria. GPT 4 avrebbe già superato, con risultati comparabili a quelli dei migliori studenti, esami universitari in fisica, biologia, storia, psicologia, legge. E quindi il sistema potrebbe potenzialmente essere impiegato nelle rispettive occupazioni. Il problema è: ma è in grado solo di riformulare nozioni oppure di imparare e ragionare, come uno studente vero? Una differenza non da poco. E qui entrano in gioco i test di logica.

Secondo uno studio pubblicato il 20 aprile da ricercatori di quattro università cinesi, GPT 4 è in grado di superare brillantemente la maggior parte dei test di logica. Il fatto è che i test di logica tendono ad assomigliarsi e tutti i grandi dataset di test sono noti. La performance invece precipita quando viene messo alla prova su test completamente nuovi. Funziona bene in particolare quando il test è abbastanza semplice, come in questo caso: “Tutti gli uccelli possono volare. Tutti i passerotti sono uccelli. La logica conseguenza è che tutti i passerotti possono volare”. Decisamente meno bene se la domanda implica un ragionamento più complesso.

Perché sbaglia? Perché stiamo chiedendo a un modello linguistico di produrre risposte logiche. Ed è in grado di farlo soltanto nella misura in cui il ragionamento passa dal linguaggio. Quante delle nostre risposte sono frutto di un pensiero verbale e quanto di altro? Quel confine, per definizione, rappresenta il limite del modello linguistico.

Un esempio aiuta a chiarire bene il problema. Se chiediamo a ChatGPT di calcolare il prodotto di due numeri piccoli, ci restituirà il risultato corretto. Ma se proponiamo una moltiplicazione tra due numeri molto grandi, il risultato può essere sbagliato. Il sistema mostra il procedimento, ma contiene errori ed è in ogni caso interrotto prima di essere concluso. Se poi andiamo su operazioni ancora più grandi e complesse il risultato può risultare non solo sbagliato, ma proprio di un ordine di grandezza completamente diverso. Il modello ha imparato