SAFE di Google DeepMind misura la veridicità delle risposte dei LLM come ChatGPT e Gemini.

Andrea Viliotti
31 mar 2024
Tempo di lettura: 10 min

Aggiornamento: 11 lug 2024

Il sistema SAFE di Google DeepMind segna un progresso nella verifica dell’'accuratezza delle informazioni generate dai grandi modelli di linguaggio (LLM), come ChatGPT e Gemini. Introducendo LongFact, un set di 2280 prompt divisi in due categorie, SAFE esplora la fattualità nei LLM su un ampio spettro di argomenti. La procedura SAFE analizza le risposte degli LLM, destrutturandole in elementi informativi per una valutazione precisa, utilizzando ricerche su Google per confermare la veridicità di ciascun fatto. Questo metodo non solo migliora la verifica delle informazioni ma riduce anche significativamente i costi rispetto alle valutazioni umane, presentando notevoli implicazioni per il mondo imprenditoriale in termini di affidabilità dei dati e ottimizzazione delle informazioni. SAFE solleva però questioni sull'etica e la trasparenza dell'uso delle AI nella gestione delle informazioni, enfatizzando la necessità di un approccio equilibrato che valorizzi la responsabilità tecnologica senza compromettere i principi democratici.

Il Framework SAFE di Google DeepMind misura la veridicità delle risposte dei LLM come ChatGPT e Gemini.

In un'epoca caratterizzata da un flusso costante di informazioni, distinguere i fatti dalle falsità è più cruciale che mai. Google DeepMind, in un recente studio, apre nuove frontiere nella verifica delle informazioni con il suo sistema di intelligenza artificiale. Presentato nel documento "Long-form factuality in large language models", il metodo SAFE (Search-Augmented Factuality Evaluator) evolve il modo in cui valutiamo l'accuratezza delle informazioni generate dai grandi modelli di linguaggio.

Per comprendere il metodo proposto da DeppMind analizziamo le due macro-fasi del Framework SAFE.

LongFact: La libreria di prompt per controllare la correttezza delle risposte dei LLM

Lo studio introduce LongFact come un set innovativo di prompt progettato per valutare la fattualità a lunga scala nei Grandi Modelli di Linguaggio. LongFact è composto da 2280 prompt, suddivisi in due categorie principali: LongFact-Concepts e LongFact-Objects, che abbracciano un'ampia varietà di argomenti selezionati dai ricercatori. Questi prompt sono stati creati usando GPT-4 con lo scopo di verificare l'abilità dei LLM di dare risposte che siano non solo accurate ma anche esaustive e approfondite.

LongFact presenta 30 richieste diverse per ogni argomento, per un totale di 1140 richieste per ognuna delle due categorie, LongFact-Concepts e LongFact-Objects. Questa ampia e varia selezione di argomenti ha lo scopo di valutare la correttezza dei modelli linguistici in un'ampia gamma di contesti, passando da una verifica di fatti isolati a una richiesta di una spiegazione approfondita e ricca di dettagli.

LongFact è il primo insieme di prompt creato appositamente per sondare l'affidabilità delle informazioni nelle risposte estese, introducendo una sfida inedita per i LLM nel fornire dati precisi e rilevanti attraverso una vasta gamma di campi. Questa collezione di prompt si rivela uno strumento fondamentale per esplorare più approfonditamente le abilità e i limiti dei modelli linguistici odierni nel generare risposte che siano non solo accurate sotto l'aspetto informativo, ma anche ricche e contestualmente congruenti.

SAFE di Google DeepMind: Verifica l’affidabilità delle informazioni nelle risposte dei LLM

Attraverso i prompt generati da LongFact, il metodo SAFE, come delineato negli studi di DeepMind, sottopone tali prompt a piattaforme avanzate di modelli linguistici, come Gemini, ChatGPT, Claude e PaLM-2, al fine di raccogliere le rispettive risposte. Queste ultime sono poi oggetto di una dettagliata valutazione per determinarne la precisione informativa, la coerenza e la completezza. Tale valutazione avviene mediante l'approccio SAFE (Semantic Accuracy Evaluator), che fornisce un'analisi minuziosa e approfondita.

La procedura SAFE impiega un LLM per analizzare e destrutturare le risposte fornite da altri LLM ai complessi prompt di LongFact in singoli elementi informativi. Ogni elemento viene trattato come una unità informativa autonoma all'interno della risposta complessiva. Questo processo di scomposizione gioca un ruolo cruciale, poiché permette un esame dettagliato della risposta su una scala più mirata, facilitando la valutazione della veridicità di ciascuna dichiarazione individuata.

Nel processo SAFE, dopo la scomposizione in fatti individuali, si procede con la valutazione della pertinenza di ciascun fatto rispetto al prompt iniziale e al contesto della risposta fornita. Questa fase garantisce che nella valutazione finale vengano considerati solo i fatti strettamente rilevanti, escludendo quelli che non apportano un contributo significativo alla risposta al prompt, mantenendo così l'attenzione sui dati che effettivamente arricchiscono il contenuto in termini di accuratezza e coerenza.

Per ogni fatto ritenuto rilevante, il metodo SAFE implementa una verifica attraverso ricerche iterative su Google. Tale processo si avvale di un LLM per creare query di ricerca mirate, specificamente congegnate in relazione al fatto da validare. Queste query vengono poi inviate a Google Search. Il modello procede all'analisi dei risultati della ricerca per identificare se ci sono prove che confermano o contraddicono il fatto esaminato, facilitando in questo modo una valutazione fondata su risorse esterne e accrescendo la neutralità del processo di verifica.

Una volta esaminati tutti i fatti pertinenti, SAFE compie un'operazione di sintesi dei risultati al fine di elaborare un giudizio globale sull'accuratezza informativa della risposta. Ciò implica stabilire la percentuale di fatti verificati (indicativa della precisione) e la quota di fatti rilevanti effettivamente presenti nella risposta (che riflette il livello di completezza).

La fase conclusiva del framework SAFE è il calcolo di F1@K, una metrica chiave per valutare la correttezza e la completezza dei fatti nelle risposte generate dai LLM. F1@K misura la precisione, cioè la percentuale di informazioni veritiere in una risposta, e la completezza, che è la percentuale di informazioni corrette date rispetto a un numero previsto di informazioni, chiamato K.

Determinare il valore appropriato per K riveste un'importanza cruciale, poiché K rappresenta il numero ideale di fatti supportati che si presume un utente desideri in una risposta. La definizione di un valore adeguato a K è essenziale affinché la metrica F1@K rifletta in modo accurato sia la precisione che la completezza delle risposte, modellando le preferenze dell'utente finale rispetto alla quantità di informazioni fornite.

In altre parole, La metrica F1@K è uno strumento progettato per valutare quanto siano precise e complete le informazioni fornite dalle risposte di un'intelligenza artificiale. Immaginiamo di voler misurare la qualità di una risposta in termini di "verità" e completezza. F1@K aiuta a capire fino a che punto una risposta sia supportata da fatti veri e quanti di questi fatti importanti vengano effettivamente menzionati.

Pensiamola come una bilancia: da un lato c'è la precisione, ovvero la parte di risposta che si basa su informazioni vere. Dall'altro lato c'è il richiamo che valuta quanti dei fatti realmente importanti sono stati inclusi. La metrica cerca un equilibrio, assicurandosi che la risposta non solo sia vera, ma includa anche una quantità adeguata di informazioni rilevanti.

Risultati ottenuti da SAFE

Nelle valutazioni condotte, SAFE ha dimostrato un'efficacia superiore rispetto agli annotatori umani in termini di accuratezza. Analizzando 100 fatti su cui vi era discordanza tra le annotazioni fornite da SAFE e quelle umane, SAFE ha raggiunto una correttezza nel 76% dei casi. Al contrario, le annotazioni umane hanno mostrato una precisione del 19%, evidenziando quindi una netta superiorità di SAFE con un margine di 4 a 1.

Un aspetto fondamentale che contribuisce all'efficienza di SAFE è il suo costo significativamente ridotto rispetto all'annotazione umana. Per analizzare i fatti derivanti da 496 coppie di domande e risposte, SAFE ha impiegato le API di GPT-3.5-Turbo e Serper, con un esborso totale di $96.31, che si traduce in un costo di soli $0.19 per ciascuna risposta fornita dal modello. Questo costo è decisamente inferiore rispetto ai $4 per risposta, il prezzo stimato per l'ottenimento di annotazioni umane tramite il crowdsource secondo lo studio di Min et al. (2023). Pertanto, SAFE non solo ha superato gli annotatori umani per precisione ma si è anche dimostrato estremamente conveniente, con un costo inferiore di oltre 20 volte.

Implicazioni per il mondo imprenditoriale

L'introduzione e l'adozione di tecnologie avanzate di verifica della fattualità come SAFE segnano una svolta potenzialmente innovativa in diversi settori, dalla produzione di contenuti digitali alla gestione dei dati e oltre. Le implicazioni di questi sviluppi sono vaste e possono portare a cambiamenti significativi nelle pratiche aziendali.

Verifica dei dati e affidabilità delle informazioni

In un'epoca caratterizzata da una quantità schiacciante di informazioni e dalla crescente preoccupazione per le fake news, la capacità di verificare rapidamente e accuratamente i dati diventa cruciale. L'implementazione di sistemi come SAFE può fornire alle aziende uno strumento affidabile per garantire che le informazioni su cui si basano le decisioni aziendali siano corrette. Ciò è particolarmente rilevante per i settori che dipendono fortemente dalla precisione dei dati, come la finanza, la sanità e il giornalismo.

Ottimizzazione del content marketing

Il content marketing è un'area chiave per molte aziende che cercano di coinvolgere il proprio pubblico con contenuti rilevanti e autentici. L'utilizzo di LLM per generare bozze di contenuto può aumentare l'efficienza, ma porta con sé il rischio di inesattezze. Strumenti come SAFE consentono alle aziende di automatizzare il processo di revisione dei contenuti, assicurando che le informazioni condivise siano non solo coinvolgenti ma anche accurate. Questo può migliorare significativamente la reputazione dell'azienda e rafforzare la fiducia dei consumatori.

Efficienza costi e operativa

La riduzione dei costi è un obiettivo permanente nel mondo degli affari, e le tecnologie che promettono di ottimizzare le operazioni pur mantenendo o migliorando la qualità del lavoro sono altamente ricercate. L'efficienza di strumenti come SAFE, che supera le valutazioni umane a una frazione del costo, offre alle aziende un modo per ridurre le spese legate alla verifica dei contenuti senza comprometterne l'accuratezza.

Innovazione e sviluppo di nuovi servizi

Le capacità avanzate dei LLM e la loro applicazione nella verifica della fattualità possono anche stimolare l'innovazione, portando allo sviluppo di nuovi servizi e prodotti. Ad esempio, le aziende possono creare piattaforme di verifica dei fatti basate su AI per i propri clienti o utilizzare queste tecnologie per migliorare i servizi esistenti, come l'assistenza clienti automatizzata, rendendoli più affidabili e informativi.

In conclusione, l'adozione di tecnologie avanzate di verifica della fattualità come SAFE può offrire alle imprese nuove opportunità per migliorare l'affidabilità dei dati, ottimizzare le operazioni di content marketing, ridurre i costi e stimolare l'innovazione.

Considerazioni etiche e riflessioni

Il framework SAFE ci porta a riflettere sull'intensificarsi della nostra dipendenza dalle piattaforme tecnologiche digitali, in particolare dai motori di ricerca e dai sistemi di intelligenza artificiale come i chatbot AI, per la ricerca, verifica e la valutazione delle informazioni. Questo fenomeno pone interrogativi cruciali riguardo al ruolo che la tecnologia svolge nella nostra società. L'attuale scenario evidenzia due dinamiche parallele che caratterizzano il nostro rapporto con l'informazione nell'era digitale: da una parte, assistiamo a un'espansione senza precedenti dell'accesso alle informazioni; dall'altra, osserviamo una crescente tendenza ad affidarci alla tecnologia per giudicare la veridicità e la pertinenza di tali informazioni.

L'avvento di Internet e dei motori di ricerca ha democratizzato l'accesso alle informazioni in modo inimmaginabile solo pochi decenni fa. Le persone hanno a disposizione un'abbondanza di dati, notizie, ricerche e opinioni da ogni angolo del mondo con un semplice clic. Questa accessibilità ha il potenziale di elevare il livello di istruzione e consapevolezza globale, consentendo agli utenti di informarsi, formarsi opinioni e prendere decisioni basate su una vasta gamma di fonti.

Parallelamente, però, emerge una tendenza inquietante: la crescente delega a sistemi algoritmici e AI per filtrare, prioritizzare e persino valutare le informazioni. Motori di ricerca come Google e sistemi come il Framework SAFE di Google DeepMind assumono un ruolo centrale non solo nella selezione delle informazioni a cui veniamo esposti, ma anche nella valutazione della loro affidabilità e rilevanza. Questo trasferisce una quantità significativa di potere e controllo a entità tecnologiche, le cui metodologie e criteri di selezione non sono sempre trasparenti o soggetti a controllo pubblico.

Le implicazioni di questo spostamento sono profonde e multiformi. Sul piano socioculturale, la dipendenza da algoritmi e AI può portare a una sorta di omogeneizzazione dell'informazione, dove voci alternative o minoritarie faticano a trovare spazio. Inoltre, la possibilità di bias algoritmico e manipolazione delle informazioni solleva preoccupazioni etiche significative riguardo alla veridicità e all'integrità dell'informazione che riceviamo.

In una democrazia, la pluralità delle informazioni e la libertà di espressione sono pilastri fondamentali. Tuttavia, se i gatekeeper dell'informazione sono pochi grandi attori tecnologici, queste basi democratiche possono essere minacciate. La capacità degli individui di formarsi opinioni informate e di partecipare attivamente alla vita civica dipende dalla varietà e qualità delle informazioni a cui hanno accesso.

Affrontare queste sfide richiede un approccio multistakeholder che includa regolatori, industrie tecnologiche, comunità accademiche e società civile. È fondamentale stabilire standard etici, regolamenti e meccanismi di accountability che governino l'uso delle tecnologie AI e algoritmiche nella selezione e valutazione delle informazioni. La trasparenza degli algoritmi, il diritto alla spiegazione e la possibilità di contestare le decisioni automatizzate sono principi chiave che dovrebbero guidare questo processo.

Mentre ci addentriamo sempre più nel mondo digitale, è imperativo che sviluppiamo un'etica della responsabilità tecnologica che ponga l'individuo e i principi democratici al centro. Ciò richiede un dialogo continuo tra tutte le parti interessate e un impegno costante per valutare e ricalibrare l'impatto della tecnologia sulla società. L'obiettivo dovrebbe essere quello di sfruttare il potenziale trasformativo delle tecnologie digitali per arricchire l'esperienza umana, mantenendo al contempo un controllo critico e democratico sulle forze che modellano il nostro paesaggio informativo.

Conclusioni

L'approccio di Google DeepMind con il Framework SAFE per misurare la veridicità delle risposte fornite dai grandi modelli di linguaggio come ChatGPT e Gemini rappresenta una pietra miliare significativa nell'ambito dell'intelligenza artificiale e della verifica delle informazioni. L'introduzione di LongFact come libreria di prompt per esaminare in modo critico e complesso la fattualità delle risposte dei LLM pone una nuova sfida per questi modelli, spingendoli verso livelli più elevati di accuratezza e affidabilità.

Il metodo SAFE, attraverso una procedura dettagliata che include la scomposizione delle risposte in singoli fatti e la loro successiva verifica tramite ricerche su Google, stabilisce un nuovo standard per la valutazione dell'accuratezza informativa. Questo processo non solo migliora la capacità di discernere la veridicità delle informazioni fornite dagli LLM, ma offre anche una maggiore comprensione delle loro capacità e limiti.

Per il mondo imprenditoriale, l'implicazione più diretta di SAFE e di tecnologie simili riguarda la possibilità di affidarsi a dati e informazioni generati da LLM con un livello di fiducia maggiore. Questo si traduce in decisioni aziendali più informate e in una gestione dei rischi migliorata, soprattutto in settori critici come la finanza e la sanità, dove le conseguenze delle informazioni inesatte possono essere particolarmente gravi.

Inoltre, l'adozione di tali tecnologie potrebbe evolvere il content marketing e altre aree che dipendono dalla generazione di contenuti, rendendo i processi più efficienti e riducendo i costi legati alla verifica manuale delle informazioni. Questo non solo migliora la qualità del contenuto ma rafforza anche la reputazione dell'azienda e la fiducia del cliente.

Tuttavia, mentre ci affidiamo sempre di più a queste tecnologie avanzate, emergono questioni cruciali relative alla trasparenza, all'accountability e alla possibilità di bias algoritmico. La crescente dipendenza dai sistemi algoritmici per la selezione e la valutazione delle informazioni solleva preoccupazioni significative riguardo al controllo dell'informazione e all'impatto sulla pluralità delle voci e sulla democrazia. La sfida per le imprese, quindi, non si limita all'adozione di queste tecnologie, ma include anche la responsabilità di contribuire a un ecosistema informativo equo e trasparente.

In conclusione, il Framework SAFE rappresenta un passo avanti significativo nella verifica delle informazioni generata dall'AI, con implicazioni profonde non solo per l'efficienza e l'affidabilità nel mondo imprenditoriale ma anche per le pratiche democratiche nella nostra società. Affrontare le sfide etiche e pratiche che emergono da questa nuova era di verifica delle informazioni sarà cruciale per garantire che le tecnologie come SAFE arricchiscano la nostra società senza comprometterne i valori fondamentali.