BrainBench: i modelli linguistici superano gli esperti in neuroscienze

Andrea Viliotti
28 nov 2024
Tempo di lettura: 13 min

Aggiornamento: 28 nov 2024

La ricerca scientifica rappresenta sempre più una sfida complessa, richiedendo la capacità di sintetizzare decenni di studi. L'attuale capacità umana di elaborare informazioni risulta ormai inadeguata di fronte all'enorme mole di pubblicazioni prodotte quotidianamente. In questo panorama, i Large Language Models (LLMs), modelli di linguaggio addestrati su un vasto corpus di letteratura scientifica, si profilano come una soluzione promettente per integrare e prevedere nuovi risultati, spesso con maggiore efficienza rispetto agli esperti umani. Un recente studio, pubblicato sulla rivista Nature Human Behaviour, ha introdotto BrainBench, un benchmark innovativo ideato per valutare l'abilità dei LLM nel formulare previsioni nel campo delle neuroscienze, mettendoli a confronto diretto con gli esperti del settore.

BrainBench: i modelli linguistici superano gli esperti in neuroscienze

BrainBench e la sfida della previsione

BrainBench è un benchmark specificamente progettato per verificare la capacità dei modelli di linguaggio di prevedere i risultati di esperimenti neuroscientifici. La struttura di BrainBench include la presentazione di versioni modificate di abstract scientifici, che permettono di valutare la capacità degli LLM di distinguere tra risultati verosimili e quelli alterati. La peculiarità di BrainBench risiede nel suo carattere "forward-looking", ovvero nella sua capacità di misurare l'abilità di previsione degli LLM in situazioni nuove, piuttosto che limitarsi a verificare la loro abilità nel recupero di informazioni già note. Questo approccio differisce da altri benchmark che sono principalmente "backward-looking", come PubMedQA o MMLU, in cui le domande riguardano il richiamo di conoscenze preesistenti. In BrainBench, invece, vengono presentate due versioni di un abstract scientifico, uno originale e uno modificato nei risultati, e il compito del partecipante è identificare quale sia la versione corretta.

Il benchmark include casi di studio tratti da cinque sottocategorie delle neuroscienze: comportamentale/cognitiva, cellulare/molecolare, sistemi/circuiti, neurobiologia delle malattie e sviluppo/plasticità/riparazione. Questo approccio garantisce una copertura ampia e rappresentativa delle diverse aree delle neuroscienze, rendendo il compito di previsione particolarmente sfidante. È stato osservato che i modelli di linguaggio hanno superato in accuratezza gli esperti umani in tutte queste sottocategorie. In particolare, l'accuratezza media degli LLM è stata dell'81,4%, mentre quella degli esperti umani si è fermata al 63,4%. Anche limitando l'analisi agli esperti umani con il livello più alto di auto-valutazione della competenza, l'accuratezza raggiunta è stata solo del 66,2%, inferiore rispetto ai modelli LLM.

Un altro aspetto interessante è la valutazione di modelli di dimensioni diverse. Ad esempio, modelli più piccoli come Llama2-7B e Mistral-7B, con 7 miliardi di parametri, hanno ottenuto prestazioni comparabili a modelli più grandi come Falcon-40B e Galactica-120B.

Inoltre, è emerso che i modelli ottimizzati per il dialogo o per compiti conversazionali (come le versioni "chat" o "instruct") hanno mostrato prestazioni inferiori rispetto alle loro controparti base. Questo suggerisce che l'allineamento dei LLM per conversazioni naturali potrebbe ostacolare le loro abilità di inferenza scientifica.

L'accuratezza dei LLM è stata misurata anche in base alla capacità di ridurre la "perplessità" (perplexity), ovvero il livello di sorpresa del modello di fronte a un testo. I modelli hanno mostrato un miglioramento significativo quando potevano accedere a informazioni contestuali complete, piuttosto che concentrarsi su passaggi locali del testo. Questo dimostra come la capacità di integrazione delle informazioni a livello globale sia una delle chiavi del loro successo rispetto agli umani.

Nel complesso, BrainBench rappresenta un metodo innovativo per valutare non solo la capacità degli LLM di richiamare informazioni, ma anche la loro abilità di generalizzare e prevedere risultati di esperimenti mai osservati prima. L’approccio si basa sull’utilizzo di abstract scientifici modificati, in cui i risultati degli studi sono alterati in modo sostanziale, per verificare se i modelli possono distinguere tra versioni alternative di esperimenti. Ad esempio, un abstract originale potrebbe riportare che la stimolazione di una specifica area del cervello aumenta una certa attività, mentre la versione modificata potrebbe indicare una diminuzione dell’attività. BrainBench valuta se il modello riesce a determinare quale dei due esiti sia più plausibile, utilizzando le informazioni metodologiche e i dettagli forniti nell'abstract.

Questo metodo richiede che i modelli non solo identifichino cambiamenti nei risultati, come un aumento o una diminuzione dell’attività cerebrale, ma che li mettano in relazione con il resto delle informazioni contenute nell’abstract, come il metodo utilizzato o la logica alla base della scoperta. In tal modo, BrainBench misura la capacità degli LLM di integrare informazioni sul contesto e sulle metodologie per fare inferenze coerenti su situazioni nuove, simulando un processo di scoperta scientifica.

L’obiettivo di questa valutazione è cruciale per comprendere il potenziale degli LLM nel supportare la ricerca scientifica, soprattutto in ambiti complessi come le neuroscienze, dove la coerenza tra metodo, dati e risultati è essenziale. Questo approccio non si limita a testare la memorizzazione di informazioni, ma esplora la capacità dei modelli di pensare in modo critico e di contribuire all'interpretazione e alla generalizzazione di conoscenze scientifiche.

Perché i LLM sono così potenti nella previsione?

Un elemento chiave del successo degli LLM è la loro capacità di integrare informazioni provenienti da fonti multiple e di gestire la complessità di diversi livelli di dettaglio, come evidenziato dai test condotti con BrainBench. In particolare, quando gli LLM sono stati testati utilizzando solo singoli passaggi degli abstract, la loro performance è drasticamente diminuita. Al contrario, con l'integrazione di tutto il contenuto dell'abstract, che include informazioni su metodologia, background e risultati, la loro capacità predittiva è aumentata significativamente. Questo suggerisce che gli LLM riescono a trarre vantaggio dalla sinergia di informazioni diverse per formulare previsioni più precise.

Inoltre, la capacità degli LLM di generalizzare le informazioni, anche quando queste sono rumorose o potenzialmente ridondanti, rappresenta un vantaggio competitivo. BrainBench ha mostrato che modelli come BrainGPT, addestrati su un corpus specifico e arricchiti tramite tecniche come il Low-Rank Adaptation (LoRA), hanno raggiunto prestazioni superiori del 3% rispetto ai modelli standard. Questo miglioramento è indicativo di come una personalizzazione mirata e l'addestramento su dati di alta qualità possano rendere gli LLM strumenti estremamente efficaci per la previsione di risultati scientifici.

L'approccio degli LLM alla previsione si basa su architetture come i Transformer, che permettono di modellare con precisione le relazioni tra elementi del testo. Questo approccio è particolarmente utile nelle neuroscienze, dove i fenomeni da analizzare spesso coinvolgono dati complessi e interdipendenti. Grazie ai loro miliardi di parametri, gli LLM sono in grado di identificare pattern e correlazioni che sfuggono agli esseri umani, il che li rende adatti a prevedere non solo risultati sperimentali ma anche a suggerire nuove direzioni di ricerca.

Un ulteriore elemento che spiega il successo degli LLM nella previsione è la capacità di adattare il loro comportamento sulla base dei segnali di fiducia. Gli LLM utilizzano la differenza di perplessità tra versioni di abstract per calibrare la loro fiducia nelle risposte, il che si traduce in una maggiore affidabilità complessiva. Questo livello di calibrazione è stato uno dei fattori determinanti per il superamento degli esperti umani, poiché ha permesso ai modelli di identificare con maggiore sicurezza le risposte corrette, soprattutto nei casi più complessi.

In sintesi, la capacità degli LLM di elaborare enormi quantità di dati, integrando informazioni a diversi livelli di dettaglio e gestendo la complessità in modo efficace, li rende strumenti potenti per la previsione in ambiti scientifici complessi. Le loro performance su BrainBench dimostrano che non solo sono in grado di competere con esperti umani, ma anche di superarli in modo significativo, aprendo nuove possibilità per l'utilizzo dell'AI nel supporto alla ricerca e alla scoperta scientifica.

BrainGPT: Un modello adattato per le neuroscienze

BrainGPT è un modello linguistico di grandi dimensioni, ulteriormente specializzato rispetto agli LLM generali grazie a un fine-tuning specifico sul corpus neuroscientifico. Questo adattamento è stato realizzato tramite la tecnica di Low-Rank Adaptation (LoRA), che ha permesso di inserire oltre 629 milioni di nuovi pesi all'interno delle strutture del modello Mistral-7B, pari a circa l'8% del numero totale di pesi del modello base. Questo approccio ha consentito di ottimizzare il modello per compiti neuroscientifici, migliorando la capacità di previsione dei risultati sperimentali.

L'addestramento di BrainGPT ha coinvolto oltre 1,3 miliardi di token provenienti da pubblicazioni neuroscientifiche raccolte tra il 2002 e il 2022, spaziando su un totale di 100 riviste scientifiche. I dati sono stati estratti utilizzando l'API Entrez Programming Utilities (E-utilities) e il pacchetto Python pubget, al fine di garantire un set di dati di alta qualità e rilevanza. Questo enorme corpus di dati ha fornito al modello un ampio contesto per comprendere e prevedere i risultati neuroscientifici.

LoRA è stata scelta per la sua efficienza in termini di adattamento dei modelli già pre-addestrati. Invece di riaddestrare l'intero modello, LoRA inserisce matrici di adattamento a basso rango nei blocchi Transformer, che vengono poi addestrate specificamente per aggiornare il comportamento del modello in un dominio di conoscenza specifico. Questo processo è stato particolarmente efficace per BrainGPT, portando a un miglioramento delle performance di circa il 3% su BrainBench rispetto ai modelli generali, come evidenziato dai test condotti.

L'analisi dei risultati ha mostrato che la tecnica LoRA non solo ha migliorato la precisione complessiva del modello, ma ha anche ridotto la perplessità delle risposte corrette (t(199) = 15,7, P < 0,001, Cohen’s d = 0,25), indicando una specializzazione più efficace per il materiale neuroscientifico. Questo miglioramento è stato ottenuto con un impiego relativamente limitato di risorse computazionali: il processo di fine-tuning ha richiesto circa 65 ore di calcolo su GPU Nvidia A100, utilizzando quattro unità in parallelo.

Un aspetto interessante di BrainGPT è la possibilità di aggiornarlo continuamente con nuovi dati neuroscientifici. Utilizzando approcci complementari come il retrieval-augmented generation (RAG), il modello potrebbe essere costantemente allineato con la letteratura più recente, garantendo così una performance sempre aggiornata e rilevante. In tal modo, BrainGPT può evolversi in uno strumento non solo di previsione, ma anche di suggerimento e supporto alla pianificazione di esperimenti futuri.

Questo pone le basi per una futura collaborazione sempre più stretta tra ricercatori umani e modelli di intelligenza artificiale, ampliando le possibilità di scoperte scientifiche in un settore complesso come quello delle neuroscienze.

La sfida della calibrazione della fiducia

La calibrazione della fiducia si rivela un elemento chiave nello studio delle prestazioni dei modelli di linguaggio di grandi dimensioni (LLM). La ricerca ha mostrato che esiste una correlazione positiva tra la fiducia espressa dai modelli nelle loro risposte e l'accuratezza di queste ultime. In particolare, quando i modelli erano altamente fiduciosi, le loro previsioni risultavano significativamente più precise. Questo legame è stato quantificato utilizzando la regressione logistica, evidenziando una relazione significativa tra la perplessità (un indicatore che rappresenta quanto un modello considera prevedibile un testo da generare) e la correttezza delle risposte fornite È stato scoperto che i modelli di linguaggio funzionano meglio quando riescono a distinguere chiaramente tra versioni corrette e alterate di un testo. Questa capacità è stata misurata con uno strumento statistico chiamato “correlazione di Spearman” che indica quanto due cose siano legate tra loro. Nel nostro caso, il valore di 0,75 mostra un legame molto forte: quanto più i modelli erano bravi a notare differenze nei testi, tanto più accurate erano le loro risposte. Il risultato è stato confermato con un'alta sicurezza, con un margine di errore molto piccolo (±0,08 su 95 prove su 100).

Questa calibrazione ha un impatto cruciale nell'ambito dei sistemi di supporto alle decisioni, dove le valutazioni dei modelli possono integrarsi con il giudizio umano. Ad esempio, suddividendo i risultati in venti fasce di fiducia, si è riscontrato che nei livelli più alti di fiducia l'accuratezza media superava l'85%, mentre nei livelli più bassi si attestava attorno al 55%. Tali risultati sottolineano l'efficacia della calibrazione, poiché sia i modelli che gli esperti umani hanno mostrato di saper valutare con precisione la propria sicurezza rispetto alla probabilità di successo. Questa capacità consente una sinergia più efficace tra le previsioni automatiche e il controllo umano.

Un altro aspetto rilevante emerso dallo studio riguarda le differenze tra modelli e umani nel percepire la difficoltà degli stessi compiti. Sebbene la correlazione media tra le difficoltà percepite dagli LLM e quelle dagli esperti umani fosse solo di 0,15, tra diversi modelli la correlazione saliva a 0,75. Questo dato indica una complementarità tra le aree in cui umani e modelli mostrano rispettivamente punti di forza o debolezza. Tali caratteristiche possono essere sfruttate per migliorare la collaborazione nei processi decisionali.

Infine, è stato messo in evidenza come la calibrazione della fiducia non solo aumenti l'accuratezza delle previsioni, ma contribuisca anche a creare un contesto di fiducia nell'uso degli LLM come strumenti di supporto alla ricerca. La capacità di un modello di indicare il grado di sicurezza delle proprie risposte rappresenta un aspetto essenziale per un utilizzo responsabile ed efficace di queste tecnologie, specialmente in ambito scientifico. Ciò consente agli scienziati di affidarsi a questi strumenti per compiti specifici, mantenendo però un controllo critico sul processo decisionale complessivo.

Implicazioni future: collaborazione Uomo-Macchina

Il successo di BrainBench e BrainGPT pone una serie di domande cruciali sul futuro della scienza e sul ruolo degli LLM nella ricerca scientifica. Se, da un lato, questi modelli si dimostrano in grado di prevedere con precisione i risultati degli esperimenti, è possibile immaginare un futuro in cui gli LLM diventino parte integrante del processo di scoperta scientifica. Questi strumenti potrebbero suggerire ai ricercatori quali esperimenti eseguire, identificare risultati promettenti e guidare l'interpretazione dei dati.

Un aspetto cruciale sarà quello di garantire un'integrazione efficace tra la potenza computazionale degli LLM e l'ingegno umano. Gli LLM sono in grado di gestire una quantità di dati scientifici che supera di gran lunga la capacità umana, elaborando rapidamente migliaia di articoli e fornendo connessioni tra studi che spesso sfuggono agli esperti. Tuttavia, l'intuito umano, la creatività e la capacità di contestualizzare un problema specifico restano insostituibili per garantire che le scoperte abbiano un impatto significativo e siano dirette verso applicazioni utili e innovative.

Per massimizzare il potenziale della collaborazione uomo-macchina, sarà necessario sviluppare strumenti di supporto che aiutino i ricercatori a comprendere le predizioni degli LLM e a valutarne la fiducia. Ad esempio, strumenti basati sull'interfaccia utente che visualizzino il livello di fiducia di un LLM rispetto a una specifica previsione potrebbero migliorare la trasparenza e facilitare un uso più consapevole delle raccomandazioni generate dall'AI. In particolare, potrebbe essere utile implementare visualizzazioni che mostrino le differenze di perplessità tra le versioni corrette e alterate degli abstract, permettendo ai ricercatori di comprendere meglio su quali basi un LLM ha formulato la sua previsione.

Un'altra interessante implicazione riguarda la possibilità di utilizzare LLM per generare ipotesi sperimentali innovative. La capacità dei modelli di linguaggio di identificare pattern nascosti nei dati potrebbe portare alla formulazione di ipotesi che altrimenti non verrebbero prese in considerazione, accelerando così il ritmo delle scoperte. Tuttavia, è fondamentale che i ricercatori mantengano un approccio critico, valutando con attenzione le previsioni e le ipotesi generate per evitare il rischio di seguire ciecamente una direzione suggerita dall'AI, senza considerare la possibilità di risultati inaspettati o contraddittori.

Inoltre, la collaborazione uomo-macchina potrebbe beneficiare di una continua interazione e adattamento reciproco. Ad esempio, LLM come BrainGPT potrebbero essere addestrati utilizzando feedback esplicito dai ricercatori umani, migliorando continuamente la loro capacità di fornire suggerimenti pertinenti. Allo stesso modo, gli esperti umani potrebbero sviluppare nuove metodologie sperimentali o teoriche sulla base dei suggerimenti degli LLM, creando un ciclo virtuoso di innovazione e scoperta.

Tuttavia, uno dei rischi principali è quello di affidarsi troppo alle previsioni degli LLM, specialmente quando queste suggeriscono un percorso di ricerca che potrebbe sembrare più sicuro o più promettente. Questo potrebbe portare a una riduzione dell'esplorazione di ipotesi meno ovvie ma potenzialmente rivoluzionarie. Il rischio è che la scienza diventi meno esplorativa e più orientata verso una logica di ottimizzazione basata su modelli predittivi, il che potrebbe limitare il potenziale di scoperte davvero innovative.

Infine, la complementarità tra LLM e ricercatori umani potrebbe essere ulteriormente migliorata sviluppando modelli specializzati per diversi campi del sapere. Come dimostrato con BrainGPT, un modello addestrato su un corpus specifico ha migliorato le proprie performance rispetto a LLM generalisti. Estendendo questo approccio, potremmo immaginare una rete di LLM altamente specializzati, ognuno con una profonda comprensione di un settore specifico, che collaborano per risolvere problemi complessi, creando un ecosistema di conoscenza in cui le capacità analitiche delle macchine e la creatività umana si potenziano a vicenda.

In sintesi, il futuro della ricerca scientifica potrebbe vedere una crescente integrazione tra LLM e scienziati umani, con questi modelli che diventano non solo strumenti di supporto, ma veri e propri partner nella scoperta. La chiave del successo sarà mantenere un equilibrio tra l'affidamento alle previsioni degli LLM e la creatività e l'indipendenza del pensiero umano, garantendo che l'innovazione resti al centro del processo scientifico.

Conclusioni

La capacità dei modelli linguistici di superare gli esperti umani nelle neuroscienze pone interrogativi profondi sul futuro della ricerca scientifica e sulle dinamiche di collaborazione uomo-macchina. Questo fenomeno non riguarda solo una questione di efficienza computazionale, ma solleva prospettive strategiche per il modo in cui affrontiamo la complessità del sapere e organizziamo le risorse intellettuali. Gli LLM, attraverso strumenti come BrainBench e modelli specifici come BrainGPT, dimostrano non solo di competere con gli esperti umani ma di portarci a ripensare il valore e il ruolo dell’intuizione e dell’esperienza in ambiti ad alta densità di dati.

La performance superiore degli LLM non si limita a una questione di accuratezza predittiva, ma riflette un cambio di paradigma nella gestione della conoscenza. La loro capacità di integrare enormi quantità di informazioni, spesso distribuite su discipline diverse, ridefinisce il concetto di competenza, spostandolo dalla profondità del sapere individuale alla larghezza della capacità analitica collettiva. Questo pone una sfida fondamentale alle strutture tradizionali della ricerca scientifica, in cui l’autorità dell’esperto era una pietra angolare. Gli LLM, con la loro adattabilità e la capacità di specializzazione, potrebbero presto diventare un nuovo standard per validare, prevedere e proporre ipotesi scientifiche, rendendo i confini dell’expertise più fluidi e collaborativi.

Un aspetto cruciale è l'emergere di una "fiducia calcolata" che gli LLM possono offrire, ridefinendo la relazione tra previsione e decisione. La capacità di calibrare la fiducia in base alla perplessità e di comunicarla in modo trasparente rappresenta un'innovazione strategica per il processo decisionale, non solo nelle neuroscienze ma anche in settori come la medicina, l’economia e l’ingegneria. Questa caratteristica non è semplicemente un miglioramento tecnico; è un modello di come gli esseri umani possono apprendere a gestire le incertezze e le probabilità in contesti complessi. I decisori aziendali, per esempio, potrebbero adottare questo approccio per combinare analisi quantitative e giudizio umano, ottimizzando strategie e riducendo i rischi associati a decisioni incerte.

Il rischio di una scienza "ottimizzata ma non esplorativa" merita una riflessione strategica più ampia. Se da un lato gli LLM possono orientare i ricercatori verso le aree di maggior probabilità di successo, dall’altro potrebbero disincentivare l’esplorazione di ipotesi meno ovvie o contrarie alle tendenze dominanti. Per evitare questo pericolo, sarà fondamentale bilanciare la potenza analitica degli LLM con il coraggio creativo dell’uomo. Le imprese che investiranno in modelli di innovazione capaci di integrare queste due dimensioni avranno un vantaggio competitivo nel generare soluzioni radicali e non solo incrementali.

La complementarità uomo-macchina non deve essere vista come una semplice somma delle parti, ma come un nuovo ecosistema di conoscenza in cui l’interazione produce valore emergente. Ad esempio, l’idea di feedback continuo tra esperti umani e LLM rappresenta non solo un’opportunità di miglioramento delle performance tecnologiche, ma anche un modo per gli esseri umani di apprendere da prospettive che altrimenti rimarrebbero inaccessibili. Questo non è un dettaglio tecnico, ma un principio guida per costruire organizzazioni in grado di adattarsi rapidamente ai cambiamenti e di anticipare le tendenze future.

Infine, la specializzazione degli LLM, come nel caso di BrainGPT, apre scenari inediti per una "rete di intelligenze artificiali specializzate", in cui modelli altamente focalizzati lavorano insieme per affrontare problemi complessi e interdisciplinari. Questo concetto di "intelligenza distribuita" non riguarda solo la scienza, ma si estende alle imprese, ai governi e ad altri contesti in cui il successo dipende dalla capacità di collegare punti tra sistemi apparentemente distanti. La capacità di orchestrare questa rete sarà una delle competenze chiave del futuro, ridefinendo non solo come lavoriamo, ma anche come pensiamo e innoviamo.

Podcast: https://spotifycreators-web.app.link/e/EtyMogTwSOb

Fonte: https://www.nature.com/articles/s41562-024-02046-9.pdf