top of page
  • Immagine del redattoreAndrea Viliotti

Come ragionano gli LLM come ChatGPT e Gemini

I modelli linguistici avanzati come ChatGPT e Gemini elaborano dati mediante complesse reti neurali. Questi modelli, basandosi su funzioni articolate, stabiliscono relazioni tra concetti, come un musicista con il suo strumento. Nonostante la loro complessità, parte del processo di elaborazione delle informazioni segue un approccio diretto e comprensibile. Una ricerca del MIT apre nuove prospettive sull'AI, potenzialmente utili in vari ambiti aziendali per personalizzare interazioni e correggere bias.


Come ragionano gli LLM come ChatGPT e Gemini
Come ragionano gli LLM come ChatGPT e Gemini

I modelli di linguaggio avanzati, quali ChatGPT e Gemini, sono caratterizzati da una straordinaria complessità e trovano impiego in una vasta gamma di ambiti, inclusi generazione testi, l'assistenza ai clienti, lo sviluppo di software, l’analisi dati e la traduzione tra lingue diverse. Nonostante la loro ampia utilizzazione, la piena comprensione dei principi su cui si basano rimane un'area di studio aperta per gli esperti del settore.

 

Al fine di approfondire la conoscenza su come questi sofisticati sistemi di apprendimento automatico elaborano e gestiscono le informazioni, un gruppo di studiosi affiliati al MIT e ad altre entità accademiche ha condotto una ricerca sui processi interni mediante i quali tali modelli accedono e utilizzano i dati immagazzinati.

 

Da complesso a semplice: La ricerca che spiega come ragionano gli LLM come ChatGPT e Gemini


Gli autori principali dello studio sono Evan Hernandez, studente di dottorato in ingegneria elettrica e scienze informatiche (EECS) al MIT, e Arnab Sharma, studente di dottorato in informatica alla Northeastern University. Il lavoro è stato supervisionato da Jacob Andreas, professore associato in EECS al MIT e membro del Computer Science and Artificial Intelligence Laboratory (CSAIL), e da David Bau, professore assistente di informatica alla Northeastern University.

 

Evan Hernandez, in un articolo delle MIT News, sottolinea la complessità e l'opacità degli LLM che si evolvono attraverso l'addestramento su vasti dataset. Tuttavia, evidenzia come, al loro interno, possano celarsi processi di sorprendente semplicità.

 

I modelli di linguaggio avanzati, comunemente noti come modelli transformer, si fondano su architetture di reti neurali. Queste ultime, ispirate alla struttura cerebrale umana, sono formate da miliardi di nodi, o neuroni, interconnessi in una complessa rete di strati. Questa struttura permette la codifica e l'elaborazione dei dati.

 

Man mano che accumulano informazioni, i transformer arricchiscono la loro conoscenza su temi specifici attraverso vari livelli di elaborazione. Quando viene richiesto loro di fornire informazioni su un determinato argomento, il modello deve identificare e selezionare il dato più pertinente per soddisfare la richiesta.

 

Hernandez illustra che, in qualche fase del processo elaborativo della rete, deve essere attivo un meccanismo specifico capace di individuare il fatto che Miles Davis è un trombettista, estrarre questa informazione e utilizzarla per formulare la parola successiva. L'obiettivo dello studio era esplorare e comprendere meglio la natura di tale meccanismo.

 

Nel corso della loro indagine sugli LLM, il gruppo di ricerca ha portato avanti una serie di esperimenti mirati a disvelare le modalità con cui questi modelli trattano le informazioni relazionali. Sorprendentemente, hanno rivelato che, malgrado la notevole complessità strutturale degli LLM, la decodifica delle informazioni avviene, in taluni casi, mediante un meccanismo relativamente semplice, basato su funzioni lineari. Ogni funzione è adattata specificatamente al tipo di dato che si intende estrarre.

 

Ad esempio, per generare l'informazione relativa allo strumento suonato da un musicista, il transformer impiega una determinata funzione di decodifica. Invece, per indicare il luogo di nascita di un individuo, utilizza una funzione differente.

 

I ricercatori hanno elaborato una tecnica per calcolare queste funzioni lineari, determinando funzioni specifiche per 47 differenti tipi di relazioni, tra cui "la capitale di un paese" e "il cantante principale di un gruppo musicale". Sebbene il numero di relazioni possibili sia teoricamente illimitato, la scelta di concentrarsi su questo particolare insieme di relazioni è stata dettata dalla loro rappresentatività dei tipi di informazioni comunemente utilizzate.

 

Per testare l'efficacia di ciascuna funzione, i ricercatori hanno variato l'elemento soggetto, controllando se il modello era capace di fornire accuratamente le informazioni pertinenti all'oggetto. Per esemplificare, la funzione associata alla "capitale di un paese" dovrebbe identificare Oslo in correlazione alla Norvegia, e Londra in associazione all'Inghilterra.

 

I risultati hanno mostrato che le funzioni hanno identificato correttamente le informazioni desiderate in più del 60% dei casi, confermando che parte delle informazioni all'interno di un transformer è elaborata e recuperata seguendo questo schema.

 

Tuttavia, Hernandez precisa che non tutte le informazioni vengono processate mediante meccanismi lineari. Alcuni dati, nonostante siano conosciuti dal modello e vengano utilizzati per predire testi in linea con tali informazioni, non sembrano essere riconducibili a funzioni lineari. Questa osservazione suggerisce che, per memorizzare e gestire certe tipologie di informazioni, il modello si avvale di processi più complessi.

 

I ricercatori hanno utilizzato le funzioni lineari identificate per indagare le convinzioni che il modello nutre verso vari argomenti. In un esperimento, partendo dalla frase "Bill Bradley era un", hanno applicato le funzioni di decodifica relative alle attività sportive e all'istruzione universitaria per verificare se il modello fosse a conoscenza del fatto che il senatore Bradley era un cestista e che aveva studiato a Princeton.

 

Evan Hernandez sottolinea che, nonostante il modello possa optare per concentrarsi su differenti informazioni durante la generazione di testo, esso mantiene una rappresentazione interna di tutte queste informazioni.

 

L'approccio adottato dai ricercatori ha portato alla creazione di quello che hanno definito "filtro attributi". Questo strumento consiste in una griglia che illustra in quali strati del transformer sono conservate le informazioni specifiche legate a determinate relazioni. La capacità di generare automaticamente questi filtri offre ai ricercatori un metodo più intuitivo per decifrare le modalità con cui il modello archivia le informazioni, e potrebbe aiutare a intervenire sui modelli per correggere le conoscenze errate e impedire la diffusione di informazioni inesatte da parte dei chatbot basati sull'intelligenza artificiale.

 

Nel prossimo futuro, Hernandez e il suo team prevedono di esplorare più a fondo le situazioni in cui le informazioni non sono codificate linearmente, e intendono estendere la loro ricerca a modelli di dimensioni maggiori. Si propongono inoltre di valutare la precisione con cui le funzioni lineari decodificano le informazioni.

 

Mor Geva Pipek, professore assistente alla Scuola di Informatica dell'Università di Tel Aviv, che non ha preso parte allo studio, ha espresso entusiasmo per i risultati ottenuti. Egli riconosce che, benché ricerche precedenti abbiano evidenziato la capacità degli LLM di costruire rappresentazioni dettagliate di determinati soggetti e di estrarre da queste specifici attributi per la produzione di testo, lo studio del MIT dimostra che i complessi calcoli non lineari impiegati dagli LLM per l'estrazione di attributi possono essere efficacemente approssimati mediante semplici funzioni lineari. Questa scoperta rappresenta un passo importante per una comprensione più profonda del funzionamento interno dei modelli di linguaggio avanzati.

 

La conoscenza architetturale negli LLM: I modelli Transformer e la ricerca delle informazioni

 

L'architettura di apprendimento nei modelli linguistici di grande dimensione, come i Transformer, consente la raccolta di una vasta gamma di informazioni, siano esse basate su fatti o su conoscenze di senso comune, grazie all'utilizzo dei cosiddetti "pesi". I pesi sono valori numerici all'interno della rete neurale che determinano l'importanza delle varie connessioni tra i dati di ingresso e le previsioni del modello. Attraverso questi “pesi”, il modello memorizza dati reali, ad esempio il fatto che John Adams è diventato Presidente degli Stati Uniti nel 1796, oltre a concetti intuitivi come il contesto lavorativo dei medici. Questa molteplicità di conoscenze è spesso rappresentata attraverso relazioni tra entità, quali persone o oggetti, e le loro caratteristiche o azioni. Per esemplificare, la capacità di Miles Davis di suonare la tromba è catturata in una relazione di tipo "suona lo strumento", che associa l'entità "Miles Davis" all'entità "tromba". Allo stesso modo, si può esprimere che Carol Jantsch suona la tuba attraverso una relazione simile, dimostrando la flessibilità e l'efficacia dei modelli nel rappresentare varie forme di conoscenza.

 

I token, segmenti di testo che i LLM (Large Language Models) identificano come unità significative, legati ai soggetti, sono i fattori chiave per l'estrazione di informazioni: quando un soggetto è presente nel testo di input, i modelli di linguaggio creano rappresentazioni arricchite di tali soggetti che contengono informazioni rilevanti. Questi token possono essere parole, frasi o anche singoli caratteri che, nel contesto della programmazione e dell'elaborazione del linguaggio naturale, vengono utilizzati per facilitare la comprensione e la manipolazione del testo da parte dei LLM.

 

Le recenti indagini sugli interventi e sui meccanismi di attenzione degli LLM hanno messo in luce la natura intricata e diffusa del processo mediante il quale vengono recuperate informazioni specifiche. Queste ricerche hanno evidenziato che l'elaborazione delle informazioni relazionali e degli oggetti, a partire dalle rappresentazioni dei soggetti, avviene attraverso diversi strati e attraverso le cosiddette "teste" di attenzione dei modelli. Tali studi hanno permesso di individuare dove le informazioni relazionali sono effettivamente localizzate all'interno dei modelli.

 

Nonostante questi progressi, rimane ancora da esplorare in modo approfondito la natura esatta dei calcoli eseguiti dai modelli nella gestione delle relazioni tra i dati. La complessità di questi processi risiede nel fatto che il recupero di informazioni specifiche non è limitato a una singola area o funzione del modello, ma si avvale di una rete complessa di interazioni tra diverse componenti. Questo aspetto rappresenta una sfida significativa, poiché richiede una comprensione dettagliata di come i vari elementi del modello collaborino per produrre un output coerente e accurato, in risposta a richieste che implicano relazioni complesse tra diversi tipi di informazioni.

 

I ricercatori del MIT hanno scoperto un metodo interessante con cui le intelligenze artificiali (AI) come ChatGPT e Gemini elaborano e comprendono le informazioni, in particolare quando si tratta di stabilire relazioni tra concetti, come collegare un musicista al suo strumento. Immaginate di dover spiegare a qualcuno come Miles Davis sia associato alla tromba: ci sono modi semplici e complessi per farlo. I ricercatori hanno trovato che, in certi casi, l'AI usa un metodo piuttosto semplice per fare queste associazioni.

 

Questo metodo prende un'informazione di partenza (ad esempio, il nome di un musicista) e la trasforma in modo da ottenere l'informazione di arrivo (lo strumento che suona). È come se l'AI avesse una mappa che le dice come passare da un'idea all'altra in modo diretto e lineare, anche se il processo complessivo di pensiero dell'AI è molto più articolato.

 

In pratica, quando l'AI lavora su una frase o su un concetto, a un certo punto utilizza questa "mappa" per capire le relazioni tra le parti della frase. Ad esempio, capisce che "Miles Davis" e "tromba" sono collegati nella stessa maniera in cui si capisce che "Carol Jantsch" e "tuba" hanno una relazione simile.

 

Tuttavia, i ricercatori ribadiscono che questo metodo non è l'unico che l'AI usa per capire le relazioni, e non funziona per tutti i tipi di collegamenti che l'AI può fare. In alcuni casi, l'AI riconosce e utilizza le relazioni in modi che non possono essere spiegati con questo semplice metodo, mostrando la complessità e la versatilità delle capacità dell'intelligenza artificiale.

 

Nello specifico, i ricercatori del MIT hanno esaminato due tipi avanzati di intelligenze artificiali, chiamate GPT e LLaMA, per vedere come riescono a capire e gestire diverse informazioni. Hanno analizzato in particolare se queste AI fossero in grado di usare una specie di "mappa" per legare insieme fatti e idee diverse, come il fatto che la Space Needle si trova a Seattle, che le banane sono gialle, o anche stereotipi come l'associazione tra il mestiere di dottore e il genere maschile. Hanno trovato che, in quasi la metà dei casi, queste AI hanno delle "mappe" molto affidabili che le aiutano a collegare correttamente soggetti e oggetti in un'ampia varietà di contesti, coprendo oltre 10.000 diversi tipi di informazioni.

 

Questo significa che, per molte delle relazioni che hanno esaminato, queste AI possono capire correttamente e riprodurre le associazioni tra le idee, come sapere che "Space Needle" e "Seattle" sono collegati, o che "banana" si associa a "giallo". Ancora più interessante è il fatto che i ricercatori hanno scoperto che queste "mappe" possono essere modificate, il che significa che potrebbero essere in grado di insegnare all'AI a cambiare il modo in cui associa determinate idee. Questo potrebbe essere particolarmente utile per correggere stereotipi o pregiudizi che l'AI potrebbe avere imparato.

 

Inoltre, i ricercatori hanno creato un nuovo strumento chiamato "lente degli attributi" per aiutare a capire meglio come le intelligenze artificiali gestiscono le informazioni. Questo strumento, che lavora con i dati raccolti e un metodo speciale per analizzare le AI, permette di osservare come e quando un'intelligenza artificiale elabora le informazioni riguardanti una particolare relazione tra idee o concetti.

 

A differenza di altri strumenti che mostrano solo quali parole potrebbero venire dopo in una frase, la "lente degli attributi" va più in profondità. Essa può mostrare come l'AI collega tra loro concetti specifici (come "gatto" e "miao") in vari livelli del suo processo di pensiero, e ciò può aiutare a scoprire come l'AI comprende le caratteristiche o gli attributi di un concetto, anche se queste informazioni non appaiono direttamente nelle risposte finali che l'AI fornisce.

 

I risultati di questa ricerca rivelano due cose importanti sul modo in cui funzionano queste AI avanzate. La prima è che parte di ciò che "sanno" è organizzato in un modo che possiamo capire e analizzare facilmente. La seconda è che l'AI non tratta tutte le informazioni nello stesso modo: anche fatti o idee che ci sembrano simili possono essere elaborati e compresi in modi molto differenti dall'AI. Questo dimostra quanto siano complessi e vari i meccanismi con cui queste intelligenze artificiali elaborano le informazioni.

 

Conclusioni

Lo studio condotto dal MIT e da altre entità accademiche riguardo ai modelli di linguaggio avanzati come ChatGPT e Gemini fornisce intuizioni preziose per gli imprenditori che cercano di comprendere e sfruttare queste tecnologie. La scoperta che tali modelli possono stabilire relazioni tra concetti utilizzando trasformazioni lineari semplici, anche se in modo eterogeneo, apre nuove prospettive per l'applicazione di queste intelligenze artificiali in vari settori.

 

Per gli imprenditori, questo significa che i modelli transformer, pur essendo complessi, possono essere interpretati e manipolati in modi che rendono le loro capacità di elaborazione più accessibili e comprensibili. Questa conoscenza è particolarmente rilevante per coloro che lavorano nello sviluppo di prodotti AI, nella personalizzazione di assistenti virtuali, nella generazione di contenuti o nell'analisi di informazioni.

 

L'identificazione di funzioni lineari per rappresentare relazioni specifiche fornisce un metodo potenzialmente più semplice per "insegnare" a queste AI nuove informazioni o correggere pregiudizi esistenti. Ad esempio, in un contesto aziendale, potrebbe essere utilizzato per affinare le capacità di un modello di linguaggio in modo che meglio si allinei con i valori aziendali, corregga informazioni imprecise sui prodotti o si adatti meglio alle esigenze di comunicazione specifiche dell'azienda.

 

Inoltre, la capacità di modificare le "mappe" utilizzate dalle AI per collegare concetti offre la possibilità di personalizzare e migliorare le interazioni tra queste tecnologie e gli utenti finali. Ciò potrebbe essere particolarmente vantaggioso in settori come il marketing, il supporto clienti e l'istruzione, dove una comprensione precisa e contestualizzata delle richieste degli utenti è fondamentale.

 

Infine, lo strumento "filtro attributi" menzionato nella ricerca offre agli imprenditori un mezzo per esplorare in modo più intuitivo come le informazioni vengono memorizzate e trattate dai modelli transformer. Questa comprensione potrebbe essere impiegata per affinare ulteriormente l'efficacia dei modelli di linguaggio nelle applicazioni aziendali, garantendo che le risposte generate siano non solo accurate ma anche in linea con le specifiche aspettative aziendali.

 

In conclusione, mentre la ricerca sul funzionamento interno dei modelli di linguaggio avanzati continua a progredire, gli imprenditori hanno l'opportunità di trarre vantaggio da queste scoperte per migliorare l'integrazione dell'AI nelle loro strategie aziendali, ottimizzando così l'interazione tra l'uomo e la macchina nel mondo del business.

Comentarios


bottom of page