Abstract
In un’intervista, rilasciata a fine del 2024, il neo premio Nobel Demis Hassabis parlando dell’inaspettata e, a volte, misteriosa creatività dei sistemi di AI (LLM), ha affermato che le loro capacità risultano essere “unreasonably effective”. Questa capacità degli ultimi modelli LLM di generare contenuti connotati da una forte creatività e dall’automazione dei processi e nella risoluzione di problemi complessi, che va oltre le aspettative dei loro artefici e quindi la capacità degli algoritmi di apprendere, classificare e generalizzare a partire da vasti set di dati sembra avere molteplici connessioni con il concetto di “schematismo latente del reale“, mutuato dalla filosofia di Francis Bacon, che quindi può offrire una chiave di lettura illuminante per comprendere i meccanismi sottostanti all’addestramento dei sistemi di IA e, in particolare, della IA generativa.
Il concetto di “Schematismo Latente” in Francis Bacon
Francis Bacon, filosofo e scienziato inglese vissuto a cavallo tra XVI e XVII secolo, ha rivoluzionato il pensiero scientifico con la sua enfasi sull’osservazione empirica e l’induzione, come strumenti per la scoperta della verità. In contrapposizione alla logica aristotelica, basata sulla deduzione da principi generali, Bacon ha proposto un metodo scientifico che parte dall’analisi dei dati e dalla scoperta delle “forme” o “nature” che li governano.
Lo “schematismo latente” si inserisce esattamente in questa cornice epistemologica. Per Bacon, lo schematismo latente si riferisce alla struttura interna o alla costituzione di un fenomeno, ovvero a come una cosa è fatta. Non si tratta delle qualità superficiali o apparenti, ma del principio interno che spiega la costituzione e la struttura del fenomeno.
Ma comprendere lo schematismo latente significa svelare i meccanismi nascosti che ne regolano il comportamento e le interazioni. Bacon introduceva inoltre un ulteriore distinzione tra lo “schematismo latente” e il “processo latente”, mentre il primo si riferisce alla struttura del fenomeno, il secondo si riferisce invece alla legge che ne regola la produzione o il suo sviluppo, cioè la sua generazione e produzione.
Gli spazi latenti nell’IA
Appare quindi evidente, nell’ambito dell’IA, l’analogia tra lo “schematismo latente” baconiano e gli spazi latenti, cioè gli spazi multidimensionali astratti in cui i dati sono codificati in una forma compressa e strutturata. Questi spazi – generati durante l’addestramento di modelli di machine learning, come le reti neurali – permettono di catturare le relazioni e le somiglianze tra i dati in modo efficiente.
Uno spazio latente è quindi una rappresentazione vettoriale[1] di un insieme di dati, in cui ogni dimensione del vettore corrisponde a una caratteristica latente o nascosta.
A differenza delle caratteristiche esplicite, che sono direttamente osservabili nei dati grezzi, le caratteristiche latenti sono inferite dal modello durante l’addestramento e rappresentano pattern o strutture sottostanti non immediatamente evidenti.
I metodi di classificazione dei set di dati e lo “Schematismo Latente”
Risulta quindi sostenibile l’esistenza di legami tra i metodi di classificazione dei set di dati utilizzati nell’addestramento dei sistemi di IA generativa e lo “schematismo latente”.
L’obiettivo di tali metodi è l’organizzazione dei dati in modo che il modello possa apprendere le relazioni e le somiglianze rilevanti e, di conseguenza, generare nuovi dati che siano coerenti con la distribuzione appresa.
Ciò vale per tutti i metodi di classificazione comunemente utilizzati[2], i quali, pur differendo nelle loro specifiche implementazioni, condividono l’obiettivo di estrarre e codificare lo schematismo latente dei dati, ovvero le strutture e le relazioni sottostanti che permettono di distinguerli e classificarli.
Il ruolo degli Autoencoder Variazionali (VAE)
Un esempio particolarmente illuminante di come lo “schematismo latente” si manifesta nell’IA generativa è offerto dagli Autoencoder Variazionali (VAE): un tipo di rete neurale che apprende una rappresentazione compressa dei dati in uno spazio chiamato appunto “spazio latente”.[3] Questo spazio è progettato per essere continuo e regolare, in modo che sia possibile generare nuovi dati campionando punti in questo spazio e decodificandoli nello spazio originale dei dati.
L’addestramento di un VAE implica la minimizzazione di una funzione di perdita che incoraggia il modello a trovare una rappresentazione latente che sia sia compressa che informativa. In altre parole, il modello deve imparare a codificare i dati in uno spazio latente che catturi le caratteristiche essenziali e che permetta di ricostruire i dati originali con elevata accuratezza.
I VAE sono ampiamente utilizzati in diverse applicazioni di IA generativa, come la generazione di immagini, la traduzione di stili e l’aumento dei dati. La loro capacità di apprendere e manipolare lo “schematismo latente” dei dati li rende uno strumento potente per la creazione di nuovi contenuti e per l’esplorazione di nuove possibilità creative.
Coconut: il ragionamento IA senza vincoli linguistici nello Spazio Latente continuo
Un ulteriore esempio di come l’IA stia evolvendo verso una comprensione più profonda dello “schematismo latente” è rappresentato da Coconut, un approccio innovativo sviluppato da Meta per il ragionamento artificiale. Coconut mira a superare i limiti imposti dalle rappresentazioni linguistiche tradizionali, permettendo all’IA di ragionare direttamente in uno spazio latente continuo, senza la necessità di tradurre i concetti in parole.
L’addestramento di Coconut prevede la graduale sostituzione dei passaggi linguistici con “pensieri continui”, ovvero rappresentazioni latenti che catturano il significato dei concetti in modo più diretto ed efficiente. Questo approccio permette all’IA di manipolare idee astratte, come dati temporali o spaziali, senza essere vincolata dalle limitazioni del linguaggio umano.
Coconut rappresenta un passo avanti significativo verso una forma di ragionamento più generale e astratta, applicabile oltre il dominio del linguaggio umano. Studiando come Coconut elabora le informazioni, potremmo scoprire nuovi indizi su come funziona l’intuizione umana e su come le soluzioni emergono “dal nulla”.
I dati sintetici e “Schematismo Latente”
Un altro aspetto rilevante è l’uso di dati sintetici nell’addestramento dei sistemi di IA generativa. I dati sintetici sono dati generati artificialmente che mirano a replicare le caratteristiche dei dati reali, ma senza i costi e le limitazioni associate alla loro raccolta e annotazione.
L’uso di dati sintetici può essere particolarmente utile in situazioni in cui i dati reali sono scarsi, costosi da ottenere o soggetti a restrizioni di privacy. Generando dati sintetici che catturano lo “schematismo latente” dei dati reali, è possibile addestrare modelli di IA che siano in grado di generalizzare a nuovi dati e di risolvere problemi complessi.
Tecniche come le Generative Adversarial Networks (GAN) e gli Autoencoder sono spesso utilizzate per generare dati sintetici che siano realistici e coerenti con la distribuzione dei dati reali. Questi modelli imparano a imitare lo “schematismo latente” dei dati reali e a generare nuovi dati che condividano le stesse caratteristiche.
Conclusioni
In conclusione, il concetto di “schematismo latente” di Francis Bacon offre una chiave di lettura preziosa per comprendere i meccanismi sottostanti all’addestramento dei sistemi di IA generativa. I metodi di classificazione dei set di dati, gli spazi latenti, i VAE, Coconut e l’uso di dati sintetici sono tutti strumenti che mirano a estrarre, codificare e manipolare lo “schematismo latente” dei dati, permettendo all’IA di apprendere, generalizzare e creare nuovi contenuti.
La continua evoluzione dell’IA generativa e la crescente attenzione verso la comprensione dello “schematismo latente” dei dati promettono di aprire nuove frontiere nella scienza, nella tecnologia e nella creatività.
NOTE
[1] Una rappresentazione vettoriale è una forma di rappresentazione compressa dell’informazione all’interno di uno spazio multidimensionale astratto, dove i valori caratteristici non sono direttamente interpretabili, ma sono codificati in una rappresentazione interna significativa. In altre parole, è uno spazio vettoriale che fornisce una modellazione spaziale quantitativa delle informazioni, utilizzata dalle reti neurali.
[2] Il Clustering: Raggruppamento di dati simili in cluster, in modo da identificare categorie o tipi di dati distinti. La classificazione supervisionata: Assegnazione di etichette a dati, in modo da addestrare il modello a riconoscere e predire la categoria di appartenenza di nuovi dati. La riduzione di dimensionalità: tecniche come l’Analisi delle Componenti Principali (PCA) o gli Autoencoder, che mirano a ridurre il numero di variabili necessarie per rappresentare i dati, preservando al contempo le informazioni più importanti.
[3] Il funzionamento di un VAE può essere shеmatizzato come segue: 1. Encoder: Prende un dato in input e lo mappa in un punto nello spazio latente. 2. Spazio Latente: Rappresentazione compressa e strutturata dei dati. 3. Decoder: Prende un punto nello spazio latente e lo mappa in un nuovo dato nello spazio originale.
PAROLE CHIAVE: classificazione / connessioni / dati / IA / modelli / processi / schematismo latente
Tutti i contenuti presenti in questa rivista sono riservati. La riproduzione è vietata salvo esplicita richiesta e approvazione da parte dell’editore Digitalaw Srl.
Le foto sono di proprietà di Marcello Moscara e sono coperte dal diritto d’autore.