La rapida evoluzione dei Large Language Models (LLMs) e dei Vision Language Models (VLMs) ha riacceso l'interesse per la creazione di agenti generali capaci di raggiungere autonomamente obiettivi complessi. Questi modelli possiedono un vasto repertorio di conoscenze e hanno mostrato promettenti capacità di ragionamento in contesti specifici. Tuttavia, presentano ancora notevoli limitazioni quando si tratta di operare in ambienti complessi e dinamici, che richiedono pianificazione a lungo termine, esplorazione continua e gestione di interazioni intricate. BALROG è stato sviluppato proprio per affrontare questo problema: si tratta di un benchmark progettato per valutare le capacità agentiche di LLMs e VLMs attraverso una serie di giochi di complessità crescente. Questo progetto è stato realizzato grazie alla collaborazione tra l'AI Centre dell'University College London, IDEAS NCBR, la University of Oxford, la New York University e Anthropic. Gli autori principali della ricerca sono Davide Paglieri, Bartłomiej Cupiał, Samuel Coward, Ulyana Piterbarg, Maciej Wolczyk, Akbir Khan, Eduardo Pignatelli, Łukasz Kuciński, Lerrel Pinto, Rob Fergus, Jakob Nicolaus Foerster, Jack Parker-Holder e Tim Rocktäschel.
Obiettivi e struttura di BALROG
BALROG si propone di fornire un ambiente unificato per la valutazione delle capacità degli LLMs e VLMs come agenti in ambienti di reinforcement learning. L'obiettivo principale è quello di spingere i modelli a superare le loro attuali limitazioni, testandoli in contesti che richiedono non solo capacità di comprensione e interazione, ma anche competenze avanzate di ragionamento, esplorazione e adattamento. BALROG è strutturato per sfidare i modelli in vari aspetti delle loro capacità agentiche, compresi il ragionamento spaziale, la pianificazione a lungo termine, e l'interazione con rappresentazioni multimodali.
I giochi utilizzati per il benchmark spaziano da attività relativamente semplici, risolvibili da un umano non esperto in pochi secondi, fino a compiti estremamente complessi come l'ambiente di NetHack, che può richiedere anni per essere padroneggiato. I giochi inclusi in BALROG sono stati accuratamente selezionati per coprire una vasta gamma di abilità cognitive.
Ad esempio:
BabyAI: un ambiente relativamente semplice che valuta la capacità del modello di seguire istruzioni in linguaggio naturale e navigare in un mondo bidimensionale.
Crafter: ispirato al famoso gioco Minecraft, questo ambiente richiede all'agente di esplorare, raccogliere risorse e creare oggetti, mettendo alla prova la sua capacità di sopravvivenza e gestione delle risorse.
TextWorld: un gioco completamente testuale dove l'agente deve esplorare labirinti e interagire con oggetti quotidiani, dimostrando la sua capacità di comprendere e gestire scenari descritti solo verbalmente.
Baba Is AI: basato sul popolare gioco di puzzle Baba Is You, questo ambiente valuta la capacità del modello di manipolare regole di gioco per risolvere problemi complessi, sfidando la sua abilità di ragionamento non convenzionale.
MiniHack e NetHack: ambienti estremamente complessi e impegnativi, in cui gli agenti devono combinare capacità di esplorazione, navigazione e pianificazione a lungo termine per sopravvivere in dungeon procedurali. NetHack, in particolare, è noto per la sua difficoltà e per le competenze avanzate che richiede ai giocatori umani.
Ogni gioco è caratterizzato da differenti livelli di difficoltà, simulazioni procedurali e requisiti di pianificazione a lungo termine, rendendo BALROG un benchmark completo e rappresentativo delle sfide che gli agenti LLM devono affrontare nel mondo reale. BALROG non si limita a valutare le prestazioni dei modelli, ma incoraggia anche lo sviluppo di nuove strategie per migliorare le capacità degli agenti, fornendo una piattaforma flessibile che supporta l'integrazione di nuovi metodi di prompting e approcci di reinforcement learning.
Inoltre, BALROG adotta un'architettura modulare che permette la facile aggiunta di nuovi giochi e ambienti di test, mantenendo la piattaforma aperta per la ricerca e l'innovazione continua. Ogni componente del benchmark, dai task di navigazione di base alle sfide più avanzate come MiniHack e NetHack, contribuisce a fornire una panoramica dettagliata delle capacità dei modelli in contesti diversi e complessi. L'infrastruttura permette l'uso di agenti basati su zero-shot prompting, few-shot learning e altre tecniche avanzate, supportando così un'ampia gamma di metodologie di apprendimento e valutazione.
Metodologia e metriche di valutazione
Per valutare le capacità degli agenti, BALROG adotta metriche estremamente dettagliate e rigorose, pensate per misurare vari aspetti delle performance degli LLM e VLM in contesti complessi. Ogni modello viene valutato su una serie di parametri chiave, tra cui la capacità di risolvere problemi, l'efficacia delle decisioni prese, l'abilità di pianificazione a lungo termine, la gestione delle risorse, la reattività a input visivi e testuali, e la robustezza di fronte a sfide procedurali impreviste.
I test vengono condotti utilizzando diverse configurazioni degli ambienti di gioco per assicurare la generalizzabilità delle capacità dei modelli. Gli agenti vengono valutati su ambienti generati proceduralmente, il che significa che ogni sessione di test presenta situazioni e mappe differenti, evitando qualsiasi possibilità di overfitting basato sulla memorizzazione delle soluzioni. Ogni ambiente include metriche dettagliate per catturare il progresso dell'agente, inclusi punteggi intermedi, numero di errori commessi, e tempo impiegato per completare i compiti.
Per esempio, nell'ambiente di NetHack, è stato sviluppato un sistema di progressione basato sui livelli di esperienza e di dungeon raggiunti, in quanto il sistema di punteggio standard non era sufficiente a rappresentare adeguatamente il progresso del modello. In questo contesto, ogni livello raggiunto contribuisce a una valutazione progressiva del modello, permettendo di identificare quanto un agente sia vicino a completare con successo il gioco, con percentuali di completamento che spaziano dallo 0% fino al 100%. Le difficoltà di NetHack rendono particolarmente utile una misurazione fine-grained per monitorare la capacità di sopravvivenza e la strategia di pianificazione degli agenti.
In BabyAI, la metrica principale è la precisione con cui l'agente segue le istruzioni e il tempo necessario per completare i compiti. Gli agenti sono valutati sulla loro capacità di navigare correttamente attraverso una serie di azioni descritte in linguaggio naturale. I modelli migliori riescono a completare i task con un'accuratezza superiore al 90% nelle situazioni più semplici, mentre mostrano un calo significativo con l'aumentare della complessità dei compiti.
Per Crafter, l'analisi delle prestazioni si concentra sulla capacità degli agenti di raccogliere risorse, costruire strumenti e sopravvivere all'interno dell'ambiente per un lungo periodo. La complessità aumenta poiché le risorse sono scarse e l'ambiente è dinamico. Vengono misurati parametri come il numero di milestone raggiunte (es. raccolta di risorse rare, costruzione di strumenti avanzati) e la durata media della sopravvivenza.
Nell'ambiente Baba Is AI, una particolare attenzione viene data alla capacità degli agenti di manipolare regole di gioco per risolvere puzzle complessi. Le metriche includono il numero di puzzle risolti, il tempo impiegato per ogni risoluzione, e la creatività dimostrata nel trovare soluzioni non convenzionali. Gli agenti devono non solo applicare regole esistenti, ma anche crearne di nuove combinando blocchi di testo per modificare le meccaniche di gioco.
Per ogni scenario, BALROG fornisce una valutazione comparativa tra LLMs e VLMs, mettendo in evidenza le differenze nelle prestazioni tra rappresentazioni esclusivamente testuali e rappresentazioni che includono input visivi. Le rappresentazioni multimodali spesso comportano un calo di prestazioni, soprattutto in ambienti dove la visione è fondamentale per prendere decisioni efficaci, come in MiniHack e NetHack. I modelli multimodali sono valutati sulla loro capacità di integrare informazioni visive con quelle testuali, unendo percezione e ragionamento per navigare in ambienti complessi.
Le metriche di BALROG sono progettate per essere normalizzate in un punteggio da 0 a 100, che permette una facile comparazione tra diversi modelli e configurazioni di esperimento. Questo approccio di valutazione dettagliato consente di identificare con precisione i punti deboli dei modelli e di monitorare i progressi compiuti nelle diverse aree critiche, come la pianificazione a lungo termine, la gestione dell'incertezza e la capacità di apprendimento adattivo.
Principali risultati
L'analisi delle prestazioni ha evidenziato che i modelli attuali riescono a ottenere buoni risultati nelle attività più semplici, ma mostrano importanti carenze in quelle più complesse. In particolare, NetHack si è rivelato uno degli ambienti più impegnativi, con i migliori modelli che sono riusciti a raggiungere solo un progresso medio del 1,5% in termini di avanzamento nel gioco. Il modello o1-preview ha ottenuto il miglior risultato, con un avanzamento medio del 1,57%, mentre altri modelli, come GPT-4o e Claude 3.5 Sonnet, hanno registrato performance ancora inferiori, evidenziando l'enorme difficoltà nel navigare e pianificare in ambienti di lunga durata come NetHack.
Per MiniHack, la suite si è dimostrata estremamente impegnativa, con compiti come "Boxoban" che non sono mai stati risolti da alcun modello, evidenziando gravi carenze nelle capacità di pianificazione a lungo termine e gestione delle risorse. Solo alcuni modelli sono riusciti a completare i compiti più semplici, come i labirinti 9x9 e le battaglie nei corridoi.
Nel caso di BabyAI, i modelli più performanti hanno ottenuto risultati medi di progressione superiori al 70%, con GPT-4o e Llama 3.1 70B in testa, mentre l'introduzione di input visivi ha provocato un calo delle prestazioni. Il modello Gemini-1.5-Pro ha mantenuto una performance stabile tra il formato testuale e quello visivo, dimostrando una maggiore robustezza.
Per Crafter, il modello GPT-4o ha mostrato la miglior capacità di gestione delle risorse, con una progressione media del 33,10%. Tuttavia, anche in questo caso l'introduzione di input visivi ha portato a un calo delle prestazioni, suggerendo che l'integrazione efficace delle informazioni visive rimane un obiettivo lontano per molti modelli.
Per TextWorld, i compiti più complessi, come il "Coin Collector", hanno presentato difficoltà elevate per tutti i modelli, con GPT-4o che è riuscito a completare il compito solo una volta su venti tentativi. I modelli Gemini hanno incontrato problematiche con l'API, che ha spesso classificato i prompt come "non sicuri", impedendo la valutazione completa.
Un elemento ricorrente emerso dall'analisi è il cosiddetto "knowing-doing gap": molti modelli dimostrano di possedere conoscenze teoriche sul gioco ma non riescono a metterle in pratica durante l'esecuzione delle attività. Ad esempio, in NetHack, modelli come GPT-4o sono in grado di riconoscere il pericolo del consumo di cibo avariato, ma continuano a commettere questo errore durante il gioco, sottolineando una mancanza di integrazione pratica delle conoscenze acquisite.
Infine, l'analisi comparativa ha mostrato che le architetture multimodali attuali non riescono ancora a sfruttare pienamente le informazioni visive per prendere decisioni efficaci. In ambienti come MiniHack e NetHack, la presentazione di immagini ha portato a un calo significativo delle prestazioni, evidenziando che il ragionamento basato sulla visione è ancora un'area in cui i modelli devono migliorare notevolmente.
Le sfide aperte per il futuro
BALROG non è solo un benchmark, ma anche una piattaforma per la prototipazione rapida di nuove metodologie di prompting e strategie di miglioramento delle capacità agentiche dei modelli. Diverse sono le sfide aperte per la ricerca futura, che includono miglioramenti all'integrazione tra input visivi e testuali, potenziamento delle capacità di pianificazione a lungo termine e colmare il "knowing-doing gap".
1. Migliorare l'integrazione Visivo-Linguistica
I risultati di BALROG mostrano che le rappresentazioni multimodali non vengono ancora sfruttate efficacemente dagli agenti, suggerendo gravi lacune nel ragionamento basato sulla visione. La capacità di interpretare le informazioni visive e di integrarle con il linguaggio rimane un obiettivo distante. Future ricerche dovrebbero concentrarsi su tecniche come il self-supervised learning per migliorare la capacità dei modelli di estrarre insight rilevanti dalle rappresentazioni visive. Inoltre, l'introduzione di osservazioni video e storie di osservazioni multimmagine potrebbero fornire un contesto per migliorare la comprensione dei modelli in scenari a lungo termine, riducendo la difficoltà di elaborazione visiva.
2. Pianificazione a lungo termine e autonomia degli Agenti
La pianificazione a lungo termine è stata una delle aree in cui gli agenti hanno mostrato le maggiori carenze. Per affrontare queste difficoltà, una possibile soluzione è l'uso di tecniche avanzate come il Chain-of-Thought Reasoning (CoT) che permette ai modelli di pensare in modo iterativo e formulare piani più coerenti. Inoltre, l'uso di sistemi di memoria persistente potrebbe consentire agli agenti di accumulare esperienza nel corso di più sessioni di gioco, migliorando la loro capacità di pianificazione e di prendere decisioni informate basate su esperienze precedenti.
Un altro approccio potrebbe essere quello di sviluppare sistemi di Reinforcement Learning (RL) in-context, dove l'agente apprende direttamente dagli errori durante il processo di inferenza, migliorando gradualmente le sue capacità di pianificazione senza bisogno di riaddestramenti completi.
3. Colmare il Knowing-Doing Gap
Il cosiddetto "knowing-doing gap" rappresenta una sfida significativa per i modelli attuali. Molti agenti sanno teoricamente cosa fare in situazioni specifiche, ma non riescono a mettere in pratica queste conoscenze durante il gioco. Un approccio per colmare questo divario potrebbe essere l'integrazione di meccanismi di auto-riflessione che consentano al modello di valutare le proprie azioni e apportare modifiche comportamentali. Inoltre, l'uso di tecniche di in-context fine-tuning, in cui l'agente viene adattato in tempo reale sulla base delle esperienze del gioco, potrebbe rivelarsi efficace per migliorare la coerenza tra conoscenza teorica e azione pratica.
4. Affrontare i limiti computazionali dei modelli attuali
I modelli attuali sono limitati dal punto di vista computazionale, il che influisce sulla loro capacità di risolvere compiti complessi. Il Trade-off tra profondità del modello e contesto è un aspetto cruciale da considerare per il miglioramento delle prestazioni. Per affrontare questo problema, una direzione di ricerca potrebbe concentrarsi sull'uso di meccanismi di ottimizzazione dell'attenzione, come il PagedAttention, che permettono di gestire in maniera più efficiente il contesto e di concentrare le risorse computazionali solo sugli elementi rilevanti per il compito in corso.
5. Introduzione di strategie di Prompting Multi-Agente e uso di strumenti
In futuro, BALROG potrebbe anche esplorare il ruolo della collaborazione multi-agente. Gli agenti potrebbero beneficiare dell'integrazione di strategie di prompting multi-agente, dove diversi modelli lavorano in collaborazione per risolvere compiti complessi. Inoltre, l'uso di strumenti e API esterne per migliorare il processo decisionale potrebbe rappresentare un'importante direzione di sviluppo, consentendo agli agenti di acquisire informazioni e competenze che vanno oltre le loro capacità di base.
Conclusioni
I risultati di BALROG sottolinea un punto cruciale: i modelli attuali di intelligenza artificiale, seppur avanzati, restano intrappolati in un divario tra la capacità di "sapere" e quella di "fare". Questa constatazione non è soltanto un problema tecnico, ma riflette un limite intrinseco nella progettazione degli agenti: l'assenza di un vero "intento agentico". Gli agenti LLM e VLM non posseggono una comprensione innata del perché certe azioni siano necessarie o utili in un determinato contesto. Questo suggerisce che la loro programmazione attuale li posiziona come strumenti reattivi piuttosto che come sistemi capaci di navigare autonomamente le complessità strategiche.
Il mancato sviluppo di una piena integrazione tra aspetti visivi e linguistici, unito alla carenza di pianificazione a lungo termine, mette in luce un'opportunità ancora inesplorata: realizzare modelli in grado di apprendere non solo dalle informazioni, ma anche dall'esperienza, attraverso euristiche operative e adattive. Per esempio, nei giochi come NetHack o MiniHack, l'incapacità di collegare esperienze pregresse con decisioni future è un segnale che i modelli mancano di una memoria strutturale che trascenda la sessione di inferenza. Questo non si traduce solo in un problema di performance, ma limita profondamente l'applicazione di tali sistemi in scenari reali, dove la continuità e l'adattabilità sono fondamentali.
Dal punto di vista strategico per le imprese, ciò apre due prospettive innovative. In primo luogo, c'è la necessità di sviluppare sistemi ibridi che combinino la potenza di calcolo delle AI attuali con processi decisionali che incorporino "intenzionalità simulata". Questo potrebbe significare modelli progettati per apprendere schemi comportamentali contestuali piuttosto che semplici risposte task-oriented. Tali modelli potrebbero essere cruciali in settori come la gestione delle supply chain, dove la pianificazione a lungo termine e l'adattamento alle variabili sono essenziali.
In secondo luogo, il concetto di "knowing-doing gap" potrebbe portare a una rivoluzione nel modo in cui le imprese progettano i flussi di lavoro digitali. Sistemi di AI in grado di autoregolarsi e riflettere sul proprio operato in tempo reale potrebbero ridurre l'intervento umano in processi decisionali complessi, migliorando efficienza e resilienza. Immaginiamo, ad esempio, un sistema di AI per la gestione finanziaria che, oltre ad analizzare i dati storici, apprende dai propri errori e adatta le sue previsioni per mitigare rischi futuri.
Infine, l’incapacità di gestire input visivi come parte integrante del processo decisionale richiama una lezione fondamentale: le AI multimodali devono essere progettate non per tradurre passivamente input visivi in output linguistici, ma per "vivere" il contesto visivo come parte integrante della loro comprensione. Questo ha implicazioni enormi per settori come la robotica industriale e l’assistenza sanitaria, dove l’interazione tra sistemi visivi e decisionali potrebbe diventare una chiave competitiva decisiva.
BALROG non è solo un benchmark tecnico; è uno specchio per comprendere le future traiettorie dell’intelligenza artificiale. Per le imprese, il messaggio è chiaro: chi saprà investire in soluzioni che colmino il divario tra "sapere" e "fare" otterrà non solo un vantaggio tecnologico, ma anche strategico, in un mondo sempre più complesso e interconnesso.
Comentarios