Agenti AI: Intelligenza artificiale per il pensiero, l'organizzazione e l'impiego di strumenti

Andrea Viliotti
29 apr 2024
Tempo di lettura: 23 min

Aggiornamento: 11 lug 2024

Il campo dell'intelligenza artificiale pone l'accento su elementi chiave come il ragionamento, la pianificazione e l'utilizzo di strumenti specifici, essenziali per l'impiego dell'AI in contesti complessi. Una ricerca condotta da Tula Masterman e colleghi ha messo in luce come gli agenti AI siano capaci di raggiungere obiettivi complessi. Questi sistemi possono operare sia individualmente sia in configurazioni multi-agente, presentando differenze significative nella gestione dei compiti. La loro efficacia è determinata dalla capacità di pianificare e impiegare strumenti avanzati, aspetti cruciali per migliorare l'efficienza operativa e accrescere la competitività aziendale.

Agenti AI: Intelligenza artificiale per il pensiero, l'organizzazione e l'impiego di strumenti

Il campo delle architetture degli agenti AI dedicati a ragionamento, pianificazione e impiego di strumenti specifici sta suscitando un interesse crescente, particolarmente per le sue implicazioni nel settore aziendale. Uno studio recente condotto da Tula Masterman e Mason Sawtell di Neudesic (una compagnia di IBM), insieme a Sandi Besen di IBM e Alex Chao di Microsoft, ha esplorato i progressi recenti negli agenti AI. Questa ricerca si è focalizzata sulla loro abilità di conseguire obiettivi complessi mediante un ragionamento avanzato, pianificazione strategica e l'utilizzo di strumenti specifici.

Gli obiettivi principali dello studio includono la valutazione delle capacità attuali e delle limitazioni degli agenti AI, oltre alla condivisione di intuizioni derivanti dall'osservazione diretta di questi sistemi in azione. Importante è l'accento posto sulle considerazioni future per lo sviluppo di queste tecnologie, essenziali per dirigenti e decision-makers aziendali che mirano a integrare soluzioni AI avanzate nelle loro strategie operative.

Lo studio distingue le architetture degli agenti AI in singoli e multi-agenti, identificando schemi chiave e divergenze nei criteri di progettazione che influenzano direttamente l'efficacia con cui gli obiettivi sono raggiunti. Vengono esplorate le fasi cruciali di pianificazione, esecuzione e riflessione, che abilitano sistemi di agenti AI robusti e affidabili.

Un focus particolare è dato all'impatto della leadership sui sistemi di agenti, agli stili di comunicazione tra agenti e alle tematiche chiave nella selezione di un'architettura. Questi elementi sono vitali per comprendere come le scelte di design possano influenzare le prestazioni generali dei sistemi AI e come queste tecnologie possano essere adattate per migliorare l'efficienza operativa e la competitività sul mercato.

L'introduzione di ChatGPT ha segnato l'avvio di una prima ondata di applicazioni di intelligenza artificiale generativa, basate principalmente su un modello di generazione potenziata dal recupero di informazioni (RAG). Attualmente, il focus è rivolto verso il rafforzamento di questi sistemi e verso la progettazione della prossima generazione di applicazioni AI, con un tema comune: l'uso degli agenti.

Contrariamente al prompting zero-shot, dove l'interazione con il modello di linguaggio avviene in maniera aperta e diretta senza necessità di input supplementari, gli agenti AI offrono modalità di interazione e orchestrazione più articolate. Essi integrano elementi come la pianificazione, cicli di feedback, processi riflessivi e altre strutture di controllo che valorizzano al massimo le capacità di ragionamento del modello, permettendo di portare a termine compiti in modo autonomo e completo.

Abbinati alla capacità di utilizzare strumenti, plugin e chiamate a funzioni, gli agenti AI possono svolgere compiti più generali e versatili. Attualmente, nella comunità scientifica si discute se le architetture basate su un singolo agente o su più agenti siano più efficaci per gestire compiti complessi. Le architetture a singolo agente sono particolarmente vantaggiose quando i problemi sono ben definiti e non necessitano interazioni o feedback da altre entità agentiche o dall'utente. Al contrario, le architetture multi-agente risultano superiori in scenari che richiedono una collaborazione e percorsi di esecuzione diversificati. Questo dibattito riveste un'importanza cruciale per i leader aziendali che considerano l'integrazione di queste tecnologie avanzate nei loro sistemi aziendali. La scelta dell'architettura incide notevolmente sulla flessibilità e l'efficacia delle soluzioni adottate.

Tassonomia degli agenti AI

La tassonomia degli agenti AI, ovvero la classificazione sistematica di queste entità, è essenziale per capire come siano in grado di pianificare e agire iterativamente per raggiungere obiettivi specifici. L'architettura di questi agenti può variare: può essere basata su un singolo agente, che opera autonomamente, o su più agenti che collaborano per affrontare e risolvere problemi complessi.

Agenti AI: Ogni agente è dotato di un "profilo" che ne definisce il ruolo e le funzionalità, oltre ad avere accesso a una serie di strumenti che ne facilitano l'operato, sia operando in autonomia che come parte di un team. Alcuni agenti dispongono anche di una memoria, che permette loro di memorizzare e recuperare informazioni al di fuori dei loro messaggi e prompt iniziali. Conformemente a una definizione che descrive gli agenti come entità dotate di "cervello, percezione e azione", questi devono possedere le capacità essenziali per comprendere, elaborare e interagire con l'ambiente circostante.

Profilo dell'agente AI: Il profilo dell'agente definisce il ruolo e le funzionalità che l'agente è programmato per assumere, includendo istruzioni specifiche. Questa configurazione aiuta l'agente a comprendere il proprio ruolo, lo scopo dei suoi strumenti e come utilizzarli efficacemente. Le caratteristiche impostate influenzano in modo significativo il comportamento del modello di linguaggio nelle attività successive, come la redazione di post sui social media.

Strumenti: Nel contesto degli agenti AI, gli strumenti rappresentano funzioni che il modello può chiamare. Questi strumenti permettono all'agente di interagire con fonti di dati esterne, facilitando operazioni come l'aggiunta di note a un documento, la lettura di un documento esistente o l'invio di una email.

Architetture a singolo agente: Queste strutture sono controllate da un unico modello di linguaggio, responsabile di tutte le operazioni di ragionamento, pianificazione e utilizzo degli strumenti in modo autonomo. L'agente riceve un prompt e dispone degli strumenti necessari per portare a termine il suo incarico. Non sono previsti meccanismi di feedback da parte di altri agenti AI, ma l'agente può comunque beneficiare di feedback umani che orientano le sue azioni.

Architetture multi-agente: Queste strutture coinvolgono due o più agenti, che possono operare basandosi sullo stesso modello di linguaggio o su diversi modelli. Ogni agente può avere accesso agli stessi strumenti o a strumenti differenti e conserva una configurazione di ruolo distinta.

Le architetture multi-agente possono essere strutturate in maniera verticale o orizzontale. Nelle architetture verticali, esiste un agente leader a cui gli altri agenti riportano direttamente, con una chiara divisione delle responsabilità tra i collaboratori. Al contrario, le architetture orizzontali considerano tutti gli agenti come eguali, coinvolgendoli in un processo collaborativo per la definizione e l'esecuzione del compito. In questo modello, la collaborazione, il feedback e l'interazione di gruppo sono elementi fondamentali per il successo del compito.

Questa panoramica classificatoria è fondamentale per valutare le possibilità di integrazione di sistemi basati su agenti AI, fornendo una chiara comprensione di come queste tecnologie possano essere configurate per ottimizzare i processi e migliorare i risultati.

Considerazioni chiave per agenti AI

Gli agenti AI sono sviluppati per ampliare le funzionalità dei modelli di linguaggio, affrontando così sfide del mondo reale. Per garantire un'implementazione efficace, è essenziale che gli agenti dispongano di solide capacità di risoluzione dei problemi, che consentano loro di affrontare con successo compiti nuovi e inediti. Per risolvere problemi reali in modo efficace, gli agenti devono essere capaci di ragionare, pianificare e utilizzare strumenti che interagiscano con l'ambiente esterno. Ora, vediamo perché ragionamento, pianificazione e l'uso di strumenti sono cruciali per il successo degli agenti.

L'importanza del ragionamento e della pianificazione

Il ragionamento rappresenta un elemento fondamentale della cognizione umana, essenziale per prendere decisioni, risolvere problemi e interpretare il mondo circostante. Analogamente, per gli agenti AI, una robusta capacità di ragionamento è cruciale per operare efficacemente in ambienti complessi, prendere decisioni in autonomia e supportare gli esseri umani in una vasta gamma di attività. Questa stretta interazione tra "agire" e "ragionare" facilita l'apprendimento rapido di nuovi compiti e assicura decisioni affidabili anche in situazioni nuove o caratterizzate da incertezze informative.

Senza adeguate capacità di ragionamento, gli agenti possono interpretare erroneamente le richieste, generare risposte basate su una comprensione letterale o fallire nel considerare le implicazioni di più passaggi.

Per gli agenti AI, la pianificazione richiede robuste capacità di ragionamento e può essere approcciata in uno dei cinque modi principali:

Decomposizione del compito: Questo approccio consiste nel suddividere un compito complesso in sotto-task più gestibili, facilitando la pianificazione e l'esecuzione.

Selezione di più piani: Consente all'agente di generare diverse strategie e scegliere il piano più efficace tra quelli disponibili, ottimizzando così i risultati.

Pianificazione aiutata da moduli esterni: Utilizza risorse o piani già sviluppati esternamente all'agente, permettendo di approfittare di strategie preesistenti e ben testate.

Riflessione e affinamento: L'agente valuta e modifica i piani esistenti sulla base di nuove informazioni o feedback, migliorando la risposta ai cambiamenti del contesto.

Pianificazione potenziata dalla memoria: Questo metodo si avvale di informazioni esterne per perfezionare o adattare la pianificazione a nuove situazioni.

Ciascuno di questi approcci permette agli agenti di affrontare il compito in modo più efficace, ottimizzando il processo decisionale e adattandosi meglio a contesti dinamici e complessi.

La maggior parte dei pattern per agenti AI include una fase di pianificazione dedicata, che impiega una o più delle tecniche descritte per elaborare un piano prima di intraprendere qualsiasi azione. Per esempio, il metodo Plan Like a Graph (PLaG) visualizza i piani sotto forma di grafici. Il metodo PLaG è particolarmente efficace perché struttura il piano d'azione come una rete di nodi, dove ogni nodo rappresenta un'azione specifica e gli archi indicano le dipendenze temporali tra le azioni. Questa rappresentazione grafica aiuta l'agente a visualizzare e gestire le interdipendenze tra le varie azioni, facilitando così una pianificazione e un'esecuzione più efficiente e coordinata. Inoltre, il parallelismo innato nel metodo PLaG consente una gestione ottimizzata delle risorse e una riduzione dei tempi di attesa, potenziando l'efficienza complessiva dell'agente nell'adempimento del compito assegnato.

L'importanza della chiamata efficace degli strumenti

Un vantaggio significativo dell'approccio basato sugli agenti, rispetto ai semplici prompt utilizzati nei modelli di base, è la capacità dell'agente di affrontare problemi complessi mediante l'uso di numerosi strumenti. Questi strumenti consentono all'agente di interagire con fonti di dati esterne, di inviare o recuperare informazioni tramite API esistenti e di compiere altre azioni simili. Spesso, i problemi che richiedono un'intensa utilizzazione di strumenti sono anche quelli che necessitano di ragionamento complesso, evidenziando come le capacità avanzate degli agenti siano cruciali per gestire e risolvere compiti di elevata complessità.

Sia le architetture a singolo agente che quelle multi-agente sono efficaci nel risolvere compiti impegnativi, facendo uso di processi di ragionamento e di interazione con strumenti esterni. Molti approcci prevedono l'uso di multiple iterazioni di ragionamento, memoria e riflessione per completare i problemi in modo efficace e accurato. Spesso, un problema complesso viene suddiviso in più sotto-problemi, ognuno dei quali è risolto sequenzialmente utilizzando gli strumenti più adatti. Questa suddivisione e il metodo iterativo permettono di affrontare ciascuna parte del problema in modo dettagliato e sistematico, aumentando così la precisione e l'efficacia della soluzione complessiva.

Ulteriori studi focalizzati sull'evoluzione dei pattern degli agenti hanno rilevato che, nonostante la suddivisione di un problema più ampio in sotto-problemi più gestibili possa risultare efficace nel trattare compiti complessi, i pattern basati su un singolo agente spesso incontrano difficoltà nel gestire e completare le lunghe sequenze di operazioni richieste.

I pattern multi-agente offrono vantaggi significativi nel gestire compiti paralleli e nella robustezza del sistema, poiché permettono ai singoli agenti di concentrarsi su specifici sotto-problemi. Tipicamente, questi pattern iniziano con la decomposizione di un problema complesso in vari compiti più piccoli. Ogni agente, poi, procede a lavorare in modo autonomo per risolvere il compito assegnato, utilizzando un proprio set di strumenti indipendenti.

Queste considerazioni sono vitali per determinare come integrare queste soluzioni AI avanzate per ottimizzare i processi e migliorare la performance.

Architetture a singolo agente

Ora esaminiamo alcuni metodi impiegati dagli agenti singoli, quali ReAct, RAISE, Reflexion, AutoGPT + P e LATS. Ciascuno di questi approcci include una fase di ragionamento dedicata, che precede l'azione verso il raggiungimento dell'obiettivo. Questi metodi sono stati selezionati per il loro significativo contributo nel potenziare le capacità degli agenti di ragionare e utilizzare strumenti efficacemente.

Temi Principali

L'efficacia con cui gli agenti raggiungono gli obiettivi è fortemente legata alla loro capacità di pianificare accuratamente e correggersi autonomamente. Senza la capacità di autovalutarsi e sviluppare piani adeguati, gli agenti singoli possono rimanere bloccati in cicli di esecuzione infiniti, senza mai completare il compito o generare risultati che non rispondono alle aspettative degli utenti.

Esempi

ReAct: Il metodo ReAct (Ragionare + Agire) si basa su un approccio ciclico in cui un agente prima riflette sul compito assegnato, poi agisce basandosi su quella riflessione, osservando infine il risultato dell'azione. Questo ciclo si ripete fino al completamento del compito. Applicato a una vasta gamma di compiti di linguaggio e decisionali, ReAct ha mostrato una maggiore efficacia rispetto al prompting zero-shot, migliorando anche l'interoperabilità e l'affidabilità percepita dagli utenti umani e riducendo le allucinazioni. Tuttavia, il metodo può presentare delle limitazioni, generando ripetutamente gli stessi pensieri e azioni, il che può impedire la generazione di nuove idee necessarie per concludere efficacemente il compito.

RAISE: RAISE, che si basa sul metodo ReAct, introduce un miglioramento significativo attraverso l'integrazione di un meccanismo di memoria che simula la memoria umana a breve e lungo termine. Questa aggiunta permette all'agente di mantenere il contesto durante conversazioni più prolungate, risultando in prestazioni superiori a quelle di ReAct, sia in termini di efficienza che di qualità dell'output. Nonostante i progressi, RAISE incontra ancora sfide nel gestire logiche complesse e può manifestare allucinazioni relative ai ruoli o alle conoscenze dell'agente.

Reflexion: Reflexion è un pattern per agenti singoli che utilizza l'auto-riflessione attraverso feedback linguistico, migliorando il tasso di successo e riducendo le allucinazioni. Utilizza metriche come lo stato di successo, la traiettoria corrente e la memoria persistente, e si avvale di un valutatore LLM per fornire feedback specifici e pertinenti all'agente. Nonostante i progressi, Reflexion è soggetto a soluzioni di minima locali non ottimali e usa una finestra scorrevole per la memoria a lungo termine, limitando il volume di memoria disponibile.

AUTOGPT + P. (AutoGPT + P (Planning)): AutoGPT + P è un metodo all'avanguardia progettato per affrontare le limitazioni nel ragionamento degli agenti che controllano robot tramite linguaggio naturale. Il sistema integra il rilevamento degli oggetti con la Mappatura delle Affordance degli Oggetti (OAM), un processo che identifica le azioni possibili che gli oggetti nell'ambiente permettono. Questo è abbinato a un sistema di pianificazione guidato da un modello di linguaggio di grandi dimensioni (LLM). L'integrazione di questi elementi consente all'agente di esplorare l'ambiente alla ricerca di oggetti mancanti, suggerire alternative o chiedere assistenza all'utente per raggiungere gli obiettivi prefissati. "Affordance", in questo contesto, si riferisce alle proprietà degli oggetti che suggeriscono come possono essere usati, fornendo così ai robot indicazioni su come interagire con essi.

Il processo di AutoGPT + P inizia con l'acquisizione di un'immagine della scena, utilizzata per identificare gli oggetti presenti. Successivamente, un modello di linguaggio valuta e seleziona lo strumento più appropriato tra quattro possibili opzioni: lo strumento di Pianificazione Completa, lo strumento di Pianificazione Parziale, lo strumento per Suggerire Alternative e lo strumento di Esplorazione. Questi strumenti consentono al robot non solo di sviluppare un piano dettagliato per raggiungere l'obiettivo, ma anche di esplorare attivamente l'ambiente, formulare ipotesi e creare piani parziali. Questa flessibilità migliora la capacità del robot di adattarsi a situazioni variabili e di gestire compiti complessi in modo efficace.

Tuttavia, il modello di linguaggio non genera autonomamente il piano di azione, ma si limita a definire obiettivi e passaggi che sono poi eseguiti da un pianificatore classico attraverso l'uso del Linguaggio di Definizione del Dominio di Pianificazione (PDDL). Il PDDL è uno standard utilizzato per formulare problemi e soluzioni nel campo dell'intelligenza artificiale, permettendo ai pianificatori di interpretare ed eseguire compiti basati su regole ben definite. Si osserva che gli attuali modelli di linguaggio di grandi dimensioni (LLM) non sono completamente capaci di tradurre istruzioni in linguaggio naturale in piani d'azione per compiti robotici, principalmente a causa delle loro limitate capacità di ragionamento. Integrando le capacità di pianificazione degli LLM con un pianificatore classico si ottiene un miglioramento significativo rispetto ai metodi basati esclusivamente su modelli di linguaggio. Questo approccio ibrido migliora l'efficacia della pianificazione e la capacità di adattarsi a compiti complessi.

Nonostante le sue innovazioni, AutoGPT+P presenta alcune limitazioni, tra cui la variabilità nell'accuratezza della selezione degli strumenti, che talvolta può portare a cicli di azioni ripetitive (loop). Inoltre, in scenari che necessitano di esplorazione, la scelta degli strumenti può risultare in decisioni illogiche, come la ricerca di oggetti in luoghi inappropriati. Il sistema mostra anche delle restrizioni nell'interazione umana: l'agente non è in grado di richiedere chiarimenti e l'utente non ha la possibilità di modificare o interrompere il piano mentre questo è in fase di esecuzione.

LATS (Language Agent Tree Search): LATS è un metodo destinato ad agenti singoli che combina pianificazione, azione e ragionamento attraverso l'uso di alberi logici. Ispirato alla ricerca di Monte Carlo, un metodo probabilistico utilizzato per stimare soluzioni a problemi complessi attraverso la simulazione ripetuta di diversi scenari, LATS organizza ogni stato come un nodo e ogni azione come un collegamento tra nodi. Questo approccio si avvale di euristiche, tecniche di problem solving che accelerano la ricerca di soluzioni basandosi su giudizi e stime che emergono non direttamente da un'analisi logica o sistematica, ma da intuizioni pratiche o esperienze precedenti. Questi metodi permettono di esplorare le opzioni possibili in modo efficace. Successivamente, LATS seleziona un'azione mediante un valutatore di stato, un meccanismo che valuta l'efficacia di uno stato o di una transizione nel network dei nodi, facilitando così decisioni più informate e strategicamente valide.

Rispetto ad altri metodi basati su alberi, LATS introduce un importante passaggio di ragionamento auto-riflessivo che migliora significativamente le prestazioni. Quando un'azione viene attuata, il feedback ricevuto dall'ambiente e dal modello di linguaggio è utilizzato per identificare eventuali errori nel ragionamento e per suggerire alternative. Questa capacità di auto-riflessione, abbinata a un efficace algoritmo di ricerca, permette a LATS di ottenere risultati eccellenti in una varietà di compiti.

Tuttavia, a causa della complessità dell'algoritmo e dei processi di riflessione coinvolti, LATS richiede maggiori risorse computazionali e più tempo per completare i compiti rispetto ad altri metodi a singolo agente. Inoltre, il metodo è stato valutato principalmente usando benchmark relativamente semplici per domande e risposte, e non è ancora stato testato in scenari più esigenti che richiedono l'uso di strumenti specifici o ragionamenti più complessi.

Architetture multi-agente

Esploriamo ora alcune ricerche fondamentali e framework esemplificativi che utilizzano architetture multi-agente, quali "Embodied LLM Agents Learn to Cooperate in Organized Teams", DyLAN, AgentVerse e MetaGPT. Questi esempi illustrano come tali implementazioni promuovano il raggiungimento degli obiettivi attraverso una comunicazione efficace tra agenti e l'esecuzione collaborativa di piani. Pertanto, l'obiettivo non è di elencare tutti i framework esistenti, ma piuttosto di dare una visione d'insieme dei principali concetti e casi applicativi riguardanti i pattern multi-agente.

Temi chiave delle architetture multi-agente

Le architetture multi-agente offrono la possibilità di una distribuzione intelligente del lavoro, basata sulle competenze specifiche degli agenti e su un feedback utile proveniente da una varietà di fonti. Questi sistemi funzionano tipicamente attraverso diverse fasi, durante le quali i team di agenti vengono formati e riorganizzati dinamicamente per adattarsi a ciascuna fase di pianificazione, esecuzione e valutazione del compito. Questa flessibilità nella composizione del team si traduce in prestazioni superiori, grazie all'impiego di agenti specializzati in compiti specifici, che vengono sostituiti quando la loro funzione non è più necessaria.

Incorporare le competenze e i ruoli degli agenti nel contesto del compito da eseguire consente ai team di raggiungere una maggiore precisione e di ridurre i tempi necessari per completare gli obiettivi. Le caratteristiche essenziali delle architetture multi-agente efficaci comprendono una leadership chiara all'interno dei team di agenti, la capacità di costruire dinamicamente il team e una comunicazione efficiente tra i membri del team. Questo ultimo punto è cruciale per assicurare che le informazioni importanti siano condivise senza essere perse in comunicazioni non essenziali.

Esempi

La ricerca "Embodied LLM Agents Learn to Cooperate in Organized Teams", condotta da Xudong Guo, Kaixuan Huang, Jiale Liu e altri colleghi, prende ispirazione dalle strutture organizzative umane per esaminare l'efficacia di un agente leader nel potenziare le prestazioni di un team di agenti AI. L'architettura del sistema studiato include una componente verticale, rappresentata dall'agente leader, e una componente orizzontale, che permette agli agenti di interagire sia tra loro sia con il leader. I risultati della ricerca indicano che i team con un leader organizzato riescono a completare i loro compiti quasi il 10% più velocemente rispetto ai team privi di un leader.

Lo studio ha inoltre rivelato che nei team senza un leader designato, gli agenti tendono a spendere la maggior parte del loro tempo a dare ordini reciproci, occupando circa il 50% delle comunicazioni totali, e dividendo il tempo rimanente tra la condivisione di informazioni e la richiesta di guida. D'altra parte, nei team con un leader designato, il 60% delle comunicazioni del leader è dedicato all'emissione di direttive, il che stimola gli altri membri del team a concentrarsi di più sullo scambio di informazioni e sulla richiesta di indicazioni. Questi risultati sottolineano che i team di agenti raggiungono un'efficacia maggiore quando la leadership è affidata a un essere umano.

Oltre alla struttura del team, la ricerca sottolinea l'importanza di implementare una fase di "critica e riflessione" per la generazione dei piani, la valutazione delle prestazioni, la fornitura di feedback e la riorganizzazione del team. I risultati dello studio indicano che gli agenti operanti all'interno di una struttura di team dinamica, con una leadership rotante, ottengono i migliori risultati in termini di minor tempo per il completamento dei compiti e minor costo di comunicazione. In definitiva, la leadership e le strutture di team dinamiche migliorano notevolmente la capacità complessiva del team di ragionare, pianificare ed eseguire i compiti in modo efficace.

DyLAN

Il framework Dynamic LLM-Agent Network (DyLAN) istituisce una struttura dinamica degli agenti orientata a gestire compiti complessi come il ragionamento e la generazione di codice. DyLAN integra uno step specifico per valutare il contributo di ciascun agente nel ciclo di lavoro precedente, permettendo il passaggio alla fase successiva solo ai principali contributori. Questo metodo è orizzontale, dato che gli agenti possono scambiarsi informazioni reciprocamente senza un leader predefinito. DyLAN ha dimostrato miglioramenti nelle prestazioni su diversi benchmark che valutano le capacità di ragionamento aritmetico e generale, sottolineando l'efficacia dei team dinamici e dimostrando come una continua rivalutazione e classificazione dei contributi degli agenti possano formare team più efficaci nel completare specifici compiti.

AgentVerse

Le architetture multi-agente come AgentVerse dimostrano come le fasi distinte di pianificazione di gruppo possano migliorare le capacità di ragionamento e di risoluzione dei problemi di un agente AI. AgentVerse include quattro fasi principali per l'esecuzione dei compiti: reclutamento, decisione collaborativa, esecuzione di azioni indipendenti e valutazione. Questo processo può essere ripetuto fino al raggiungimento dell'obiettivo complessivo. Definendo rigorosamente ogni fase, AgentVerse aiuta a guidare l'insieme degli agenti a ragionare, discutere ed eseguire più efficacemente.

Ad esempio, la fase di reclutamento permette di rimuovere o aggiungere agenti in base al progresso verso l'obiettivo. Questo aiuta a garantire che gli agenti giusti partecipino in ogni fase della risoluzione del problema. I ricercatori hanno osservato che i team orizzontali si adattano generalmente meglio ai compiti collaborativi, come la consulenza, poiché facilitano la condivisione di informazioni e la partecipazione equa tra tutti i membri. Al contrario, i team verticali sono più efficaci per attività che necessitano di una chiara definizione delle responsabilità, come nelle situazioni in cui è richiesta la specifica chiamata di strumenti, garantendo così un'organizzazione più strutturata e gerarchica.

MetaGPT

MetaGPT è una delle molte architetture multi-agente che consente agli agenti di conversare tra loro mentre collaborano alla risoluzione di un problema comune. Questa capacità conversazionale può portare a scambi di messaggi superflui tra gli agenti, che non contribuiscono al raggiungimento dell'obiettivo di squadra. MetaGPT affronta il problema di queste conversazioni improduttive imponendo agli agenti di generare output strutturati come documenti e diagrammi, anziché condividere messaggi di chat non strutturati.

Inoltre, MetaGPT implementa un meccanismo di "pubblicazione-sottoscrizione" per la condivisione delle informazioni. Questo permette a tutti gli agenti di condividere informazioni in un unico luogo, ma di leggere solo le informazioni rilevanti per i loro obiettivi e compiti individuali. Questo sistema ottimizza l'esecuzione dell'obiettivo complessivo e riduce il rumore conversazionale tra gli agenti. Rispetto alle architetture a singolo agente, valutate sui benchmark HumanEval e MBPP, l'architettura multi-agente di MetaGPT dimostra risultati significativamente migliori. HumanEval è un benchmark che valuta la capacità dei modelli di linguaggio di completare compiti di programmazione, mentre MBPP (Mostly Basic Python Problems) è un set di test focalizzato su problemi di programmazione di base in Python. Questi benchmark sono utilizzati per misurare l'efficacia dei modelli di intelligenza artificiale nel risolvere problemi specifici e complessi.

Discussioni e osservazioni

Basandoci sui pattern di agenti precedentemente analizzati, osserviamo che i pattern a singolo agente sono generalmente più adatti per compiti che richiedono un elenco ben definito di strumenti e processi chiaramente delineati. Gli agenti singoli sono anche tipicamente più semplici da implementare, poiché richiedono solo un agente e un insieme di strumenti specifici. Inoltre, le architetture a singolo agente evitano problemi quali il feedback negativo da parte di altri agenti o le distrazioni causate da comunicazioni irrilevanti tra i membri del team. Tuttavia, possono incontrare difficoltà se rimangono intrappolati in loop di esecuzione o se non riescono a fare progressi verso il loro obiettivo, specialmente se le loro capacità di ragionamento e miglioramento continuo non sono sufficientemente robuste.

Invece, le architetture multi-agente si rivelano particolarmente efficaci per compiti che traggono beneficio dal feedback proveniente da diversi ruoli. In questi sistemi, la presenza di molteplici agenti consente una vasta gamma di input e prospettive, arricchendo il processo decisionale e aumentando le probabilità di successo nell'adempimento del compito. Questa configurazione facilita una collaborazione intensiva e mirata, permettendo agli agenti di condividere competenze e responsabilità specifiche, il che è essenziale per affrontare e risolvere problemi complessi in modo più efficace. Ad esempio, la generazione di documenti può trarre beneficio da un'architettura multi-agente in cui un agente fornisce feedback chiaro a un altro su una sezione del documento. Le architetture multi-agente sono particolarmente efficaci quando si richiede la parallelizzazione tra diverse attività o processi lavorativi.

Inoltre, la ricerca condotta da Qineng Wang, Zihao Wang, Ying Su, Hanghang Tong e Yangqiu Song dimostra che i pattern multi-agente sono più efficaci rispetto agli agenti singoli in scenari in cui non sono disponibili esempi predefiniti.

Data la loro complessità intrinseca, i sistemi multi-agente traggono notevole vantaggio da una gestione efficace delle interazioni e da una leadership chiara e autorevole. Questi elementi sono cruciali per massimizzare l'efficienza e la coesione del team di agenti, permettendo loro di affrontare e risolvere problemi complessi in modo più efficace.

Sebbene i pattern a singolo agente e multi-agente presentino capacità divergenti in termini di portata, la ricerca di Wang e colleghi indica che "la discussione multi-agente non migliora necessariamente il ragionamento quando il prompt fornito all'agente è sufficientemente robusto". Questo suggerisce che chi implementa architetture di agenti dovrebbe decidere tra un agente singolo o multipli basandosi sul contesto più ampio del caso d'uso, e non soltanto sulle capacità di ragionamento richieste.

Infine, mentre un singolo agente può gestire molteplici chiamate asincrone simultaneamente, il suo modello operativo non supporta intrinsecamente una vera divisione delle responsabilità tra diverse unità di esecuzione, note come thread. Ciò implica che, sebbene i compiti vengano elaborati in modo asincrono, non sono realmente paralleli nel senso che non sono gestiti autonomamente da entità decisionali separate. Al contrario, nelle architetture multi-agente, ogni agente può operare in modo indipendente, favorendo una divisione del lavoro più dinamica. Questa struttura non solo facilita l'esecuzione simultanea dei compiti in diversi domini o obiettivi, ma consente anche a ciascun agente di procedere con i propri passaggi successivi senza essere influenzato dallo stato dei compiti gestiti da altri. Questo approccio garantisce una gestione dei compiti più flessibile e parallela, ottimizzando l'efficienza e l'efficacia del sistema.

Sintesi e limitazioni della ricerca sull’architetture degli agenti AI

Esaminiamo le attuali limitazioni degli agenti AI e identifichiamo possibili aree di miglioramento. Le architetture di questi agenti hanno certamente ampliato le capacità dei modelli di linguaggio in diversi ambiti; tuttavia, affrontano importanti sfide, come la valutazione, la affidabilità generale e le problematiche ereditate dai modelli di linguaggio su cui si basano. La valutazione è particolarmente critica, poiché le metriche adottate variano considerevolmente e sono spesso specifiche per l'implementazione di ogni agente, rendendo complesso ottenere una valutazione obiettiva e affidabile delle prestazioni. Queste difficoltà necessitano di un'attenzione particolare per migliorare ulteriormente efficacia e robustezza dei sistemi di agenti AI nel settore tecnologico.

Sfide nella valutazione degli agenti AI

La valutazione degli agenti AI rappresenta una sfida significativa rispetto ai modelli di linguaggio di grande scala (LLMs), i quali sono testati su set di benchmark standardizzati che misurano la loro capacità di comprensione e ragionamento. Al contrario, i benchmark per la valutazione degli agenti variano notevolmente, complicando le comparazioni dirette tra diverse implementazioni.

Molti team di ricerca sviluppano benchmark specifici per i propri agenti, rendendo difficile la comparazione tra le varie implementazioni su un unico standard. Questi nuovi benchmark specifici per agenti spesso includono set di valutazione artigianali e altamente complessi, dove i risultati vengono valutati manualmente. Questo metodo può offrire una valutazione di alta qualità delle capacità di un metodo, ma manca della robustezza che caratterizza dataset più ampi e rischia di introdurre bias nella valutazione, poiché coloro che sviluppano il metodo sono anche quelli che redigono e valutano i risultati.

Inoltre, gli agenti possono incontrare difficoltà nel generare risposte consistenti su più iterazioni a causa della variabilità nei modelli, nell'ambiente o nello stato dell’obiettivo. Questa aleatorietà aggiuntiva rappresenta un problema ancora maggiore per set di valutazione più piccoli e complessi, mettendo in luce la necessità di sviluppare approcci di valutazione più standardizzati e privi di bias per garantire una comparazione equa e accurata delle capacità degli agenti AI.

Impatto della contaminazione dei dati e dei benchmark statici

L'uso di benchmark tipici per LLMs nella valutazione degli agenti AI porta alla luce significative problematiche legate alla contaminazione dei dati nei set di addestramento dei modelli. Studi recenti hanno mostrato come le prestazioni dei modelli peggiorino notevolmente quando le domande nei benchmark vengono modificate, sollevando dubbi sulla genuinità dei punteggi ottenuti sia dai modelli di linguaggio che dagli agenti basati su tali modelli.

Inoltre, con il rapido avanzamento delle capacità dei LLMs, i dataset esistenti spesso non riescono a tenere il passo con le loro capacità in continua evoluzione, dato che i livelli di complessità dei benchmark rimangono statici e fissi. Per affrontare questa sfida, sono stati sviluppati benchmark dinamici che resistono alla semplice memorizzazione. Alcuni ricercatori hanno anche esplorato l'idea di creare benchmark completamente sintetici, basati sugli ambienti specifici degli utenti o su casi d'uso particolari.

Questi approcci, sebbene utili nel mitigare la contaminazione dei dati, riducendo il coinvolgimento umano possono introdurre rischi aggiuntivi riguardo l'accuratezza e la capacità di risolvere problemi efficacemente. Questo sottolinea la necessità di una continua revisione e adattamento dei metodi di valutazione per mantenere l'efficacia e la rilevanza dei benchmark nel valutare le reali capacità degli agenti AI.

Ambito e trasferibilità dei benchmark

I benchmark tradizionali per i modelli di linguaggio, come MMLU o GSM8K, sono strutturati per essere risolti in una singola iterazione e senza l'impiego di strumenti esterni. Questi benchmark, sebbene fondamentali per valutare le capacità di base dei modelli di linguaggio, non rappresentano adeguatamente le capacità degli agenti AI, i quali necessitano di ragionare su più passaggi e di accedere a informazioni esterne. StrategyQA rappresenta un miglioramento in questo senso, valutando la capacità di ragionamento dei modelli su più step, anche se limita le risposte a semplici "sì" o "no".

Con l'industria che si orienta sempre più verso applicazioni specifiche per gli agenti, è fondamentale sviluppare nuove misure per valutare in modo più accurato la performance e la capacità di generalizzazione degli agenti in compiti che vanno oltre i dati utilizzati per il loro addestramento.

Benchmark specifici per agenti, come AgentBench, valutano gli agenti basati su modelli di linguaggio in vari ambienti, inclusi la navigazione web, le interfacce a riga di comando e i videogiochi. Questo fornisce un'indicazione più precisa su come gli agenti possano generalizzare in nuovi ambienti attraverso ragionamento, pianificazione e uso di strumenti per completare determinati compiti. Benchmarks come SmartPlay introducono metriche di valutazione oggettive progettate per valutare il tasso di successo dell'implementazione, la somiglianza delle risposte con quelle umane e l'efficienza complessiva.

Nonostante l'importanza di queste metriche oggettive per comprendere l'affidabilità e l'accuratezza delle implementazioni, è altrettanto cruciale considerare misure di performance più sfumate o soggettive. Metriche come l'efficienza nell'uso degli strumenti, l'affidabilità e la robustezza della pianificazione sono quasi altrettanto importanti quanto il tasso di successo, ma molto più difficili da misurare. Molte di queste metriche richiedono una valutazione da parte di esperti umani, processo che può risultare costoso e dispendioso in termini di tempo rispetto alle valutazioni condotte da modelli di linguaggio.

Applicabilità nel mondo reale dei benchmark per agenti AI

Molti dei benchmark esistenti per i sistemi di agenti si concentrano sulla capacità di risolvere puzzle logici o di interagire in videogiochi. Questi test, sebbene utili per valutare le capacità di ragionamento degli agenti, non sempre riflettono efficacemente le prestazioni nel mondo reale. Infatti, i dati reali possono essere disordinati e coprire un ventaglio molto più ampio di argomenti rispetto a quelli trattati nei benchmark comuni.

Un esempio di benchmark che utilizza dati del mondo reale è WildBench, basato sul dataset WildChat che comprende 570.000 conversazioni reali con ChatGPT. Questo benchmark spazia su una vasta gamma di compiti e prompt, offrendo una panoramica più estesa delle capacità degli agenti in scenari vari. Sebbene WildBench copra un'ampia varietà di argomenti, la maggior parte degli altri benchmark del mondo reale tende a concentrarsi su compiti specifici. Ad esempio, SWE-bench utilizza una serie di problemi reali emersi su GitHub per compiti di ingegneria del software in Python. Questo è particolarmente utile per valutare agenti progettati per scrivere codice in Python e fornisce indicazioni su come gli agenti riescano a ragionare su problemi legati al codice; tuttavia, risulta meno informativo per comprendere le capacità degli agenti relativamente ad altri linguaggi di programmazione.

Questa discrepanza sottolinea l'importanza di sviluppare benchmark che abbiano una copertura tematica più ampia e che siano in grado di simulare la varietà e la complessità dei dati e delle situazioni che gli agenti dovranno affrontare effettivamente nel mondo reale.

Bias e equità nei sistemi di agenti AI

I modelli di linguaggio sono notoriamente suscettibili a bias, sia in termini di valutazione sia per quanto riguarda aspetti sociali e di equità. Gli agenti AI, in particolare, hanno mostrato di essere meno robusti, inclini a comportamenti più dannosi e capaci di generare contenuti più ingannevoli rispetto ai LLM tradizionali, evidenziando significative sfide per la sicurezza.

Ulteriori ricerche hanno rivelato una tendenza degli agenti LLM a conformarsi ai bias sociali intrinseci del modello, nonostante le direttive di partecipare a dibattiti da specifiche prospettive politiche. Questa tendenza può portare a ragionamenti errati nelle implementazioni basate su agenti.

Con l'aumentare della complessità dei compiti e del coinvolgimento degli agenti, diventa necessario condurre ulteriori ricerche per identificare e affrontare i bias presenti in questi sistemi. Questa rappresenta una grande sfida per i ricercatori, poiché i benchmark scalabili e innovativi spesso implicano un certo livello di coinvolgimento dei LLM nella loro creazione. Tuttavia, per valutare efficacemente il bias negli agenti basati su LLM, è indispensabile includere una valutazione umana.

Questo approccio non solo contribuirà a mitigare i bias, ma garantirà anche che gli agenti AI operino in maniera equa e sicura, una priorità assoluta per garantire l'integrità e l'affidabilità dei sistemi AI nel lungo termine.

Conclusione e prospettive future per gli agenti AI

Le implementazioni di agenti AI esaminate dimostrano un marcato miglioramento nelle capacità di ragionamento, pianificazione e impiego di strumenti guidati da modelli di linguaggio. Sia i pattern per agenti singoli che multi-agente dimostrano di poter affrontare problemi complessi multi-step che richiedono competenze avanzate di problem solving. Indipendentemente dall'architettura selezionata, i sistemi di agenti più performanti tendono a incorporare almeno uno dei seguenti approcci: prompt di sistema ben definiti, leadership chiara e divisione dei compiti, fasi dedicate di ragionamento, pianificazione, esecuzione e valutazione, strutture di team dinamiche, feedback umano o di agente, e filtraggio intelligente dei messaggi. Le architetture che sfruttano queste tecniche risultano più efficaci in una varietà di benchmark e tipi di problemi.

Nonostante lo stato attuale degli agenti AI guidati dall'intelligenza artificiale sia promettente, esistono limitazioni notevoli e aree per miglioramenti futuri. Le sfide legate ai benchmark completi per gli agenti, l'applicabilità nel mondo reale e la mitigazione dei bias nocivi nei modelli di linguaggio dovranno essere affrontate nel breve termine per permettere lo sviluppo di agenti affidabili.

Per imprenditori e dirigenti aziendali, i risultati dello studio condotto da Tula Masterman e colleghi forniscono un'analisi essenziale su come integrare le tecnologie AI nelle strategie d'impresa per potenziare l'efficienza operativa e aumentare la competitività. L'efficacia di un'architettura di agenti AI, che sia singola o multipla, dipende strettamente dalla natura del compito da svolgere, richiedendo un'analisi attenta per scegliere la soluzione più adatta al contesto aziendale specifico.

Gli agenti AI sono progettati per ampliare le capacità di interazione delle applicazioni AI esistenti, offrendo metodi di pianificazione e feedback ciclici che migliorano la loro autonomia e precisione. Questo implica un cambiamento significativo nel modo in cui le aziende possono approcciare problemi complessi, attraverso soluzioni che automatizzano non solo processi semplici ma anche decisioni e pianificazioni strategiche complesse.

In sintesi, l'adozione e l'integrazione di agenti AI in ambienti aziendali non solo può portare a una maggiore efficienza operativa ma anche a un incremento della capacità di adattarsi rapidamente a nuove sfide e opportunità di mercato. La comprensione delle capacità e delle limitazioni di queste tecnologie è essenziale per sfruttarne appieno i potenziali benefici e minimizzare i rischi associati. Pertanto, i leader aziendali devono considerare attentamente queste tecnologie nella loro strategia di digitalizzazione e innovazione per rimanere competitivi in un mercato in rapida evoluzione.