Per gran parte della storia dell’Intelligenza Artificiale (IA), molti ricercatori ritenevano che la costruzione di sistemi veramente capaci richiedesse una lunga serie di scoperte scientifiche: algoritmi rivoluzionari, intuizioni profonde sulla cognizione umana o progressi fondamentali nella comprensione del cervello.
Sebbene i progressi scientifici abbiano svolto un ruolo importante, i recenti sviluppi nel campo dell’IA hanno rivelato un’intuizione inaspettata: gran parte dei miglioramenti delle capacità dell’IA è stata ottenuta semplicemente attraverso il ridimensionamento dei sistemi già esistenti.
Questo articolo offre una breve panoramica sulla scalabilità dell’intelligenza artificiale negli ultimi anni. I dati presentati provengono da Epoch, un’organizzazione che analizza le tendenze in ambito informatico, nei dati e negli investimenti, al fine di comprendere le possibili direzioni future dell’intelligenza artificiale.
Che cos’è la scalabilità nei modelli di intelligenza artificiale?
Analizziamo brevemente cosa significa ridimensionamento nell’intelligenza artificiale. La scalabilità consiste nell’aumentare tre elementi principali durante l’addestramento, che in genere devono crescere insieme:
- La quantità di dati utilizzati per l’addestramento dell’IA;
- La taglia del modello, misurata in “parametri”;
- Risorse computazionali, spesso chiamate “calcolo” nell’intelligenza artificiale.
L’idea è semplice ma potente: i sistemi di intelligenza artificiale più grandi, addestrati su più dati e che utilizzano più risorse computazionali, tendono a funzionare meglio. Anche senza modifiche sostanziali agli algoritmi, questo approccio spesso porta a prestazioni migliori in molte attività.
Scalabilità dei dati di training
Un modo per comprendere i modelli di intelligenza artificiale di oggi è considerarli come sistemi di riconoscimento di schemi altamente sofisticati. Essi operano identificando e apprendendo dalle regolarità statistiche presenti nei testi, nelle immagini o in altri dati su cui vengono addestrati. Più dati un modello può elaborare, maggiori saranno le sue capacità di apprendere le sfumature e le complessità del dominio di conoscenza per cui è stato progettato.
Tutti i modelli di intelligenza artificiale recenti e di rilievo, in particolare quelli di grandi dimensioni e all’avanguardia, si basano su enormi quantità di dati di addestramento. Con l’asse y rappresentato su una scala logaritmica, il grafico evidenzia come i dati utilizzati per addestrare i modelli di intelligenza artificiale siano cresciuti in modo esponenziale: da 40 punti dati per Teseo fino a trilioni di punti dati per i più avanzati sistemi moderni, in un arco di poco più di sette decenni.
Scalabilità dimensioni del modello
L’aumento della quantità di dati di addestramento permette ai modelli di intelligenza artificiale di apprendere da un volume di informazioni maggiore che mai. Tuttavia, per identificare i pattern presenti in questi dati e apprendere in modo efficace, i modelli necessitano di quelli che vengono definiti “parametri”. I parametri sono simili a manopole che possono essere regolate per ottimizzare il modo in cui il modello elabora le informazioni e produce previsioni.
Con l’incremento della quantità di dati di addestramento, i modelli richiedono una maggiore capacità per catturare tutti i dettagli presenti nei dati. Di conseguenza, dataset più grandi generalmente impongono che i modelli siano dotati di un numero maggiore di parametri per apprendere in modo efficace.
Il grafico illustra come il numero di parametri nei modelli di intelligenza artificiale sia cresciuto in modo esponenziale nel tempo. Dal 2010, il numero di parametri dei modelli di intelligenza artificiale è quasi raddoppiato ogni anno. Secondo le stime di Epoch, il numero più elevato di parametri registrato è pari a 1,6 trilioni, nel modello QMoE.
Scalabilità verticale delle risorse di calcolo
Con l’aumento dei dati e dei parametri, i modelli di intelligenza artificiale richiedono risorse computazionali esponenzialmente maggiori. Queste risorse, comunemente indicate come “calcolo” nella ricerca sull’intelligenza artificiale, vengono generalmente misurate in operazioni a virgola mobile totali (“FLOP”), dove ogni FLOP rappresenta un singolo calcolo aritmetico, come un’addizione o una moltiplicazione.
Il grafico evidenzia che il calcolo impiegato per addestrare ciascun modello d’IA, rappresentato sull’asse verticale, è cresciuto in modo costante ed esponenziale negli ultimi decenni. Tra il 1950 e il 2010, il calcolo è raddoppiato circa ogni due anni. Tuttavia, a partire dal 2010, questa crescita ha subito un’accelerazione significativa, con un raddoppio ogni sei mesi circa. Il modello più intensivo in termini di calcolo, al momento della stesura di questo articolo, ha raggiunto un picco di 50 miliardi di petaFLOP.
Foto di Tung Nguyen da Pixabay