Un gruppo di ricercatori, composto da Luke Hewitt, Ashwini Ashokkumar, Isaias Ghezae e Robb Willer delle Università di Stanford e di New York, ha condotto uno studio per esplorare se i grandi modelli di linguaggio (LLM) possano essere impiegati per prevedere i risultati di esperimenti nel campo delle scienze sociali. A tal fine, è stato creato un archivio contenente 70 esperimenti di sondaggio, rappresentativi a livello nazionale e condotti negli Stati Uniti. Questi esperimenti includevano un totale di 476 effetti derivanti da trattamenti sperimentali e coinvolgevano 105.165 partecipanti. Per testare le capacità predittive di un modello di linguaggio avanzato e accessibile al pubblico, nello specifico GPT-4, il modello è stato utilizzato per simulare le risposte di campioni rappresentativi di cittadini americani agli stimoli proposti negli esperimenti.
Le previsioni prodotte dalle risposte simulate da GPT-4 hanno mostrato una forte correlazione con i reali effetti dei trattamenti sperimentali, con un coefficiente di correlazione r pari a 0,85. Questo livello di accuratezza si è rivelato comparabile o addirittura superiore a quello raggiunto dagli esseri umani che avevano tentato di fare previsioni analoghe in precedenza. Inoltre, è stato riscontrato che l'accuratezza del modello rimaneva elevata anche per esperimenti non ancora pubblicati, i cui dati non potevano quindi essere presenti nel set di addestramento del modello, con un coefficiente di correlazione r che in questi casi raggiungeva 0,90.
Lo studio ha valutato la precisione predittiva dei modelli di linguaggio attraverso diversi sottogruppi demografici, discipline accademiche e nove recenti megastudi, che includevano ulteriori 346 effetti di trattamenti. I risultati complessivi indicano che questi modelli possono costituire un potente strumento a supporto dei metodi sperimentali, sia nella ricerca scientifica che nella pratica quotidiana, offrendo alle imprese la possibilità di simulare il comportamento dei consumatori, valutare strategie di marketing e prevedere l'accettazione di nuovi prodotti o servizi. Tuttavia, permangono alcune limitazioni significative, come i bias demografici e la tendenza a sovrastimare l'intensità degli effetti, insieme a potenziali rischi di abuso. Per massimizzare l'efficacia di questi modelli, le aziende dovrebbero integrare le previsioni dell'AI con dati reali e intuizioni umane, ottimizzando così processi decisionali e strategie di mercato.
I modelli linguistici di grandi dimensioni (LLM) mostrano capacità nel riprodurre il modo in cui le persone pensano, comunicano e si comportano. Questi modelli riescono a imitare abilità umane complesse, tra cui l'interazione sociale, il giudizio morale, la negoziazione e il supporto emotivo. La crescente abilità degli LLM di simulare il linguaggio umano solleva interrogativi su come possano essere utilizzati nelle scienze sociali e comportamentali. È rilevante chiedersi se questi modelli possano essere impiegati per prevedere i risultati di esperimenti comportamentali, offrendo così vantaggi significativi nella costruzione di teorie e interventi nel campo comportamentale.
Un insieme di analisi è stato condotto per verificare se un modello linguistico avanzato, come GPT-4, possa prevedere con precisione gli effetti sperimentali osservati in un ampio archivio di esperimenti preregistrati e rappresentativi a livello nazionale. Gli esperimenti sono stati realizzati nell'ambito del programma interdisciplinare finanziato dalla NSF, Time-Sharing Experiments in the Social Sciences (TESS), e in un archivio di studi recenti di replicazione. Questi archivi comprendono esperimenti in diverse discipline, tra cui psicologia sociale, scienze politiche, sociologia, politiche pubbliche e sanità pubblica. GPT-4 è stato utilizzato per simulare risposte a stimoli sperimentali da parte di ampi campioni di popolazione demograficamente diversificati negli Stati Uniti. Le risposte medie generate in diverse condizioni sperimentali sono state poi confrontate per ottenere le dimensioni degli effetti previste dai modelli linguistici, che sono state messe in correlazione con gli effetti sperimentali originali. È stata valutata l'accuratezza di queste previsioni sia per la popolazione americana nel suo insieme, sia per sottogruppi di interesse accademico, con l'obiettivo di testare la capacità degli LLM di prevedere gli effetti dei trattamenti osservati in questi esperimenti.
Oltre a questo primo insieme di test, sono stati raccolti e analizzati altri esperimenti di grandi dimensioni con molteplici trattamenti, compresi studi con misurazioni comportamentali, test sul campo di interventi e valutazione dell'impatto. L'obiettivo è stato quello di esplorare più a fondo il valore e i limiti attuali delle previsioni basate sui modelli linguistici per i risultati sperimentali. Se fosse possibile prevedere con elevata precisione i risultati degli esperimenti nelle scienze sociali, ciò potrebbe avere conseguenze rilevanti sia a livello teorico che pratico. Pur non potendo sostituire i partecipanti umani, i modelli linguistici offrono la possibilità di condurre studi pilota in modo rapido ed economico. Ciò può supportare i ricercatori nell'identificazione delle idee di ricerca più promettenti, facilitare la formulazione di teorie e ipotesi, oltre a migliorare la stima della dimensione di effetti sconosciuti. In questo modo, diventa più agevole determinare la dimensione del campione necessaria per gli studi e stabilire priorità per quelli da replicare.
Questa abilità potrebbe avere rilevanti applicazioni pratiche. Ad esempio, i responsabili delle politiche pubbliche potrebbero utilizzare gli LLM per analizzare varie strategie di comunicazione, con l'intento di incentivare comportamenti desiderati, come quelli legati alla salute o alla partecipazione a programmi di welfare. Attualmente, il metodo più efficace per anticipare i risultati degli esperimenti è raccogliere previsioni da esperti o dal pubblico. Tuttavia, questo approccio può risultare dispendioso sia in termini di tempo che di risorse economiche. Un'alternativa più economica e scalabile, basata sui modelli linguistici di grandi dimensioni, potrebbe rendere le previsioni più accessibili e ampiamente utilizzate.
Negli ultimi tempi, la capacità dei LLM di simulare con precisione le risposte umane in esperimenti di sondaggio rappresentativi ha attirato l'attenzione di ricercatori e scienziati sociali. In questi studi, un trattamento sperimentale viene applicato a un campione rappresentativo della popolazione e le variabili dipendenti vengono misurate all'interno di un sondaggio. L'obiettivo è comprendere come gli LLM possano rispecchiare le risposte umane su temi complessi come personalità, giudizi morali e opinioni politiche. Tuttavia, i risultati ottenuti finora sono stati piuttosto variabili, suggerendo che, sebbene vi siano segnali promettenti, molte sfide rimangono irrisolte.
L'attenzione è rivolta alla capacità dei LLM di prevedere come cambia qualcosa quando viene fatto un intervento o un'azione in modo casuale. Questa abilità è cruciale per l'analisi causale nelle scienze sociali. Mentre simulare semplici risposte a sondaggi può sembrare un compito relativamente semplice per un LLM, la previsione dei risultati di esperimenti complessi si rivela decisamente più ardua. Ciò richiede non solo di emulare le risposte umane, ma anche di cogliere come queste risposte possano variare in base a condizioni sperimentali differenti.
Alcuni studi pionieristici hanno dimostrato che gli LLM possono effettivamente simulare con successo gli esiti di esperimenti economici conosciuti, sia nella loro versione originale che in forme modificate. Questi risultati iniziali sono incoraggianti e suggeriscono che i modelli di intelligenza artificiale potrebbero essere utili strumenti nella previsione di effetti sperimentali. Tuttavia, rimane una significativa lacuna: non esistono studi che abbiano analizzato in modo sistematico un vasto campione di esperimenti, soprattutto quelli non pubblicati e quindi non presenti nei dati di addestramento degli LLM. Questa mancanza rappresenta una barriera alla piena comprensione delle capacità predittive degli LLM.
Nonostante i progressi, l'impiego degli LLM per simulare comportamenti umani e prevedere risultati sperimentali è ancora soggetto a limitazioni. Una delle principali preoccupazioni riguarda i potenziali bias dei modelli, in particolare nei confronti di gruppi storicamente sottorappresentati o con limitato accesso a internet. Questo solleva interrogativi sulla precisione delle stime prodotte dagli LLM, specialmente quando applicate a tali gruppi. Per affrontare queste preoccupazioni, sono stati condotti test per valutare l'accuratezza delle previsioni degli LLM in vari campi, tra cui psicologia, scienze politiche, sociologia e politiche pubbliche, utilizzando diverse metriche di valutazione.
Un ulteriore punto di riflessione riguarda i potenziali rischi sociali derivanti dall'uso di queste tecnologie. Se gli LLM riuscissero a prevedere con estrema precisione i risultati di esperimenti su vasta scala, potrebbero sorgere nuove sfide etiche e sociali. Ad esempio, c'è la preoccupazione che tali modelli possano essere sfruttati per sviluppare interventi dannosi, come la creazione di contenuti manipolativi progettati per fuorviare efficacemente il pubblico. Questo ha spinto i ricercatori a indagare se gli LLM attualmente disponibili al pubblico possano essere utilizzati in modo improprio, ponendo così questioni urgenti sulla regolamentazione e sull'uso responsabile di questa tecnologia.
Gli LLM predicono gli esiti degli esperimenti sociali negli Stati Uniti
I ricercatori hanno condotto uno studio con l'obiettivo di determinare se i modelli di linguaggio di grandi dimensioni attualmente disponibili siano capaci di prevedere in modo accurato sia la direzione, ossia se un intervento avrà un effetto positivo o negativo, sia l'entità, ovvero quanto significativo sarà l'effetto, degli esiti sperimentali in ambito di scienze sociali. Lo studio si concentra specificamente su esperimenti condotti negli Stati Uniti, esplorando la capacità di questi modelli di anticipare i risultati dei cambiamenti sociali misurati attraverso diverse variabili. Per realizzare questo obiettivo, è stato creato un archivio di dati contenente 50 esperimenti multidisciplinari basati su sondaggi, condotti tra il 2016 e il 2022 attraverso il progetto Time-Sharing Experiments for the Social Sciences (TESS), finanziato dalla National Science Foundation, utilizzando campioni rappresentativi della popolazione statunitense. Inoltre, sono stati inclusi 20 esperimenti aggiuntivi provenienti da un recente progetto di replicazione, anch'essi condotti su campioni rappresentativi a livello nazionale. Ogni esperimento è stato rianalizzato utilizzando i dati originali e applicando un approccio analitico coerente per stimare i contrasti sperimentali.
L'archivio creato ha caratteristiche importanti. Gli esperimenti inclusi sono di alta qualità, ben progettati e con un'ampia base di dati, il che rende i risultati più affidabili. Inoltre, questi esperimenti sono stati pianificati in anticipo, valutati da altri esperti e condotti su campioni che rappresentano in modo accurato la popolazione degli Stati Uniti. Ciò rende possibile valutare la precisione delle previsioni derivate dai LLM anche per sottogruppi demografici specifici. Inoltre, l'archivio è ampio e diversificato, comprendendo esperimenti progettati da 77 scienziati sociali e comportamentali provenienti da diversi campi, come scienze politiche, psicologia, sociologia, politiche sociali e comunicazione. Gli esperimenti esaminano diversi tipi di interventi, come ad esempio il modo in cui le informazioni vengono presentate, l'importanza di certi temi e l'influenza delle identità sociali. Questi studi coprono una vasta gamma di risultati, tra cui opinioni politiche e culturali, pregiudizi verso le minoranze e livelli di felicità.
Un altro punto di forza dello studio risiede nell'adozione di un'analisi uniforme, che ha permesso di stimare in modo coerente gli effetti sperimentali, evitando i bias dei ricercatori. Ciò ha incluso anche l'analisi di effetti che non erano stati originariamente ipotizzati dai ricercatori, e che quindi difficilmente sarebbero stati riportati nelle pubblicazioni. Inoltre, molti dei risultati sperimentali non erano stati pubblicati o resi pubblici prima della finestra temporale di addestramento di GPT-4, permettendo una valutazione accurata della capacità predittiva del modello su dati a cui non avrebbe potuto essere esposto.
Tuttavia, l'archivio presenta anche delle limitazioni. La principale riguarda il fatto che gli esperimenti rappresentano esclusivamente la popolazione statunitense, limitando la possibilità di estendere le previsioni a contesti esterni. Inoltre, benché l'archivio includa esperimenti provenienti da diverse discipline, alcune aree importanti, come la psicologia cognitiva, l'economia comportamentale e il marketing, non sono state rappresentate. Infine, tutti gli esperimenti inclusi si basano su sondaggi in cui ai partecipanti venivano presentati testi da leggere e poi dovevano rispondere riportando le proprie opinioni o sentimenti. Sono stati esclusi esperimenti svolti in situazioni reali o quelli che utilizzavano immagini, video o altri tipi di stimoli visivi o multimediali.
Per ottenere previsioni dai modelli di linguaggio sugli esiti degli esperimenti nell'archivio, sono stati usati i materiali originali degli studi, come i testi usati per stimolare le risposte dei partecipanti, le variabili da misurare e le scale di valutazione. Invece di far prevedere direttamente ai modelli i risultati finali degli esperimenti, è stata adottata una strategia diversa: si è usato il modello per simulare le risposte che i partecipanti avrebbero dato agli stimoli sperimentali. Per farlo, ai modelli è stato fornito un messaggio introduttivo, un profilo casuale di un partecipante con dettagli demografici (come età o sesso), il testo dello stimolo sperimentale e la domanda che misurava il risultato atteso, insieme alla scala di valutazione. Il modello ha quindi previsto come il partecipante avrebbe risposto dopo aver visto lo stimolo.
Per ridurre il rischio che i risultati fossero influenzati da un unico modo di porre le domande ai modelli, i ricercatori hanno utilizzato una tecnica chiamata "ensemble". In pratica, hanno fatto in modo che i modelli rispondessero a domande formulate in modi diversi, scelte casualmente da un grande archivio di possibili domande. Poi, hanno calcolato una media delle risposte dei modelli per ogni esperimento e per ogni risultato misurato.
Per valutare quanto fossero precise le previsioni, i ricercatori hanno scelto a caso una situazione di controllo per ogni studio e confrontato le previsioni fatte dai modelli con i risultati effettivi degli esperimenti. Questo processo è stato ripetuto 16 volte, e hanno usato il valore mediano della correlazione tra previsioni e risultati reali come principale misura di accuratezza. Per avere maggiore certezza nei risultati, i ricercatori hanno fatto dei calcoli aggiuntivi per correggere eventuali errori o imprecisioni nei dati originali. Hanno poi riportato sia i valori corretti che quelli originali, in modo da mostrare entrambe le versioni.
Previsioni sperimentali: GPT-4 più preciso con l'aiuto umano
Per valutare se i modelli linguistici avanzati come GPT-4 possano essere utilizzati per prevedere i risultati di esperimenti, è stato effettuato un confronto tra le previsioni generate dal GPT-4 e i risultati reali degli esperimenti. In un'analisi basata su 476 misure di effetto provenienti da 70 esperimenti, è emerso che le previsioni di GPT-4 erano fortemente correlate con i risultati reali (correlazione di 0,85, con un aggiustamento a 0,91). Considerando esclusivamente i confronti diretti, le previsioni di GPT-4 sono risultate corrette nel 90% dei casi.
È stato inoltre osservato un miglioramento significativo dell'accuratezza delle previsioni attraverso le varie generazioni dei modelli linguistici, passando da GPT-3 (con 1,2 miliardi di parametri) al più avanzato GPT-4 (stimato avere circa 1 trilione di parametri). Questo suggerisce la possibilità di un'ulteriore precisione nei modelli futuri nel simulare le risposte dei partecipanti agli esperimenti.
L'accuratezza delle previsioni è aumentata con l'utilizzo di un maggior numero di prompt, come evidenziato nell'analisi. Infine, GPT-4 ha raggiunto un'elevata precisione nel prevedere i risultati di esperimenti condotti in una vasta gamma di discipline accademiche.
Per verificare se i modelli di linguaggio di grandi dimensioni (LLM), come GPT-4, si limitino a replicare i risultati sperimentali dai dati di addestramento, è stato effettuato un confronto. È stata confrontata la precisione predittiva per studi pubblicati o resi disponibili online prima della data di cut-off dei dati di addestramento di GPT-4 (settembre 2021) con quella per studi non ancora pubblicati entro la fine del 2021, che quindi non potevano essere inclusi nei dati di addestramento. I risultati hanno indicato che la precisione predittiva era leggermente superiore per gli studi non pubblicati (88% di previsioni corrette) rispetto a quelli già pubblicati (87% di previsioni corrette).
Come ulteriore verifica, è stato chiesto a GPT-4 di identificare gli autori di ciascun esperimento da una lista di 10 possibili autori, basandosi sul titolo dello studio. Anche negli studi in cui GPT-4 non ha identificato correttamente l'autore, è emersa una forte correlazione tra le previsioni del modello e i risultati sperimentali originali.
In sintesi, sono emerse evidenze significative che la generazione attuale di modelli di linguaggio di grandi dimensioni possa essere utilizzata per prevedere con precisione sia l'entità che la direzione degli effetti osservati nei sondaggi condotti negli Stati Uniti. Questo significa che i modelli sono in grado di anticipare non solo se un intervento o cambiamento porterà a un aumento o a una diminuzione di un certo fenomeno (direzione dell'effetto), ma anche quanto grande sarà questo cambiamento (intensità dell'effetto). È stato inoltre osservato un miglioramento continuo dell'accuratezza tra le successive generazioni di LLM. È importante sottolineare che l'elevata precisione dei modelli non sembra essere semplicemente dovuta al fatto che stanno ripetendo risultati che già conoscevano dai dati utilizzati per il loro addestramento. Per avere un punto di confronto sull'accuratezza delle previsioni, è stato coinvolto un gruppo di 2.659 cittadini americani. A queste persone sono stati forniti i dettagli degli esperimenti presenti nell'archivio, e si è chiesto loro di fare previsioni sugli effetti che gli esperimenti avrebbero prodotto. Anche se le previsioni fatte dalle persone sono risultate piuttosto accurate (con un livello di correlazione tra le previsioni e i risultati reali pari a 0,79 e 0,84), il modello GPT-4 è riuscito a fare previsioni ancora più precise, superando le capacità delle persone e dei modelli delle generazioni precedenti.
In un'analisi aggiuntiva, sono state considerate due possibili spiegazioni per la somiglianza nell'accuratezza tra le previsioni umane e quelle generate dai modelli LLM. La prima ipotesi è che le previsioni fornite dagli LLM contengano informazioni simili a quelle utilizzate dagli esseri umani. La seconda ipotesi è che le previsioni degli LLM offrano informazioni distinte e non ridondanti rispetto a quelle umane.
L'analisi ha mostrato che sia le previsioni generate dal modello di intelligenza artificiale GPT-4 (con un valore di b = 0,35) sia quelle fatte dagli esseri umani (con un valore di b = 0,32) sono entrambe positivamente associate ai risultati reali degli esperimenti, e queste associazioni sono indipendenti l'una dall'altra.
Il valore "b" misura quanto le previsioni (sia quelle fatte dall'AI che dagli esseri umani) sono legate ai veri risultati degli esperimenti. In pratica, indica quanto bene le previsioni riescono a "catturare" o anticipare i risultati effettivi. Inoltre, il segno positivo di b indica che, quando le previsioni aumentano, anche i risultati reali tendono ad aumentare, mostrando una relazione diretta.
In altre parole, un valore di b più alto significa che c'è una connessione più forte tra ciò che viene previsto e ciò che accade realmente. Nel caso specifico, b = 0,35 per GPT-4 e b = 0,32 per le previsioni umane indicano che entrambi i metodi di previsione sono buoni indicatori dei risultati reali, con GPT-4 che mostra una leggera superiorità.
Questo risultato suggerisce che sia l'intelligenza artificiale che le persone possono fare previsioni utili ma in modi diversi. Per esempio, l'IA potrebbe individuare modelli o dettagli che gli esseri umani potrebbero non notare, mentre le persone possono basarsi su esperienza e intuizioni che l'IA non possiede. Di conseguenza, combinare entrambe le fonti di previsione potrebbe migliorare la precisione complessiva nel prevedere i risultati di esperimenti futuri, sfruttando i punti di forza di entrambi.
Questa scoperta suggerisce che le previsioni fatte dall'intelligenza artificiale e quelle fatte dagli esseri umani offrono ciascuna un tipo di informazione utile ma diversa. Per esempio, l'AI potrebbe notare schemi o dettagli che gli esseri umani potrebbero trascurare, mentre le persone potrebbero fare affidamento su esperienze o intuizioni che l'IA non possiede. Di conseguenza, combinare le previsioni di entrambe le fonti potrebbe aumentare la precisione complessiva nel prevedere i risultati di esperimenti futuri, sfruttando i punti di forza di entrambi.
In effetti, quando si sono confrontate le previsioni fatte sia dalle persone che dai modelli di intelligenza artificiale, si è scoperto che, combinando i risultati di entrambi, le previsioni erano più vicine alla realtà rispetto a quando si consideravano solo le previsioni delle persone o solo quelle del modello. Questo suggerisce che, per ottenere previsioni più accurate negli esperimenti di scienze sociali, è utile unire le intuizioni umane con quelle generate dall'intelligenza artificiale.
Tuttavia, è emerso che GPT-4, pur essendo piuttosto preciso, tendeva a esagerare la grandezza degli effetti previsti negli esperimenti. In altre parole, GPT-4 stimava che l'impatto di un cambiamento sarebbe stato più grande di quanto non fosse effettivamente. Questo ha portato a un errore medio del 10,9%, mentre le previsioni fatte dalle persone avevano un errore medio leggermente inferiore, pari all'8,4%.
Per rendere le previsioni di GPT-4 più precise, i ricercatori hanno applicato una correzione: hanno ridotto l'ampiezza delle previsioni di GPT-4 del 56%. In pratica, hanno abbassato i valori previsti dal modello per avvicinarli ai risultati reali. Dopo questa correzione, l'errore medio nelle previsioni di GPT-4 è sceso al 5,3%, rendendolo più preciso rispetto alle previsioni umane, che avevano un errore medio del 6,0%. Inoltre, combinando le previsioni di GPT-4 corrette con quelle delle persone, si è ottenuto un errore medio ancora più basso, del 4,7%, dimostrando che la collaborazione tra intelligenza artificiale e intuizioni umane può produrre previsioni molto accurate.
Accuratezza delle previsioni sperimentali di GPT-4 per gruppi demografici diversi
Nella valutazione delle previsioni fornite da modelli linguistici di grandi dimensioni, come GPT-4, è emerso un possibile problema legato alla presenza di bias, specialmente nei risultati che riguardano gruppi minoritari o sottorappresentati. Quando questi modelli vengono utilizzati per fare previsioni su sondaggi, sembra che siano meno precisi nel prevedere i risultati per questi gruppi, il che suggerisce che anche gli effetti sperimentali previsti da questi modelli potrebbero essere meno affidabili per tali sottogruppi. Tuttavia, si ipotizza che la capacità predittiva di questi modelli potrebbe essere più accurata nel contesto degli effetti sperimentali rispetto ai sondaggi, poiché gli effetti sperimentali tendono a variare meno tra le diverse sottopopolazioni.
Per testare questa ipotesi, è stato adottato un metodo che utilizza profili demografici specifici, confrontando le previsioni prodotte da modelli come GPT-4 con i risultati sperimentali effettivi, suddivisi per sottogruppi. Nel caso di GPT-4, le previsioni per 476 effetti sperimentali hanno mostrato un livello simile di accuratezza tra vari gruppi demografici. Ad esempio, le previsioni erano molto precise sia per le donne che per gli uomini, con correlazioni di 0.80 e 0.72 rispettivamente, e una volta corrette per il campionamento, entrambe raggiungevano un valore di 0.90. Anche tra partecipanti neri e bianchi, le correlazioni grezze erano rispettivamente 0.62 e 0.85, mentre le correlazioni corrette erano 0.86 e 0.90. Per i partecipanti democratici e repubblicani, le correlazioni grezze erano 0.69 e 0.74, con valori corretti di 0.85 e 0.86. La correlazione più bassa tra i partecipanti neri è stata attribuita principalmente alla ridotta dimensione del campione, ma una volta corretto questo fattore, la precisione delle previsioni si è avvicinata a quella degli altri gruppi.
Questa uniformità nell'accuratezza delle previsioni potrebbe riflettere il fatto che gli effetti sperimentali tendono a essere piuttosto simili tra i vari gruppi demografici negli Stati Uniti. Solo una piccola parte degli effetti del trattamento negli esperimenti esaminati, infatti, è risultata significativamente influenzata da variabili come il genere (6,3%), l'etnia (7,2%) e l'appartenenza politica (15,4%).
Infine, è stata esaminata anche la capacità dei modelli linguistici di prevedere gli effetti di interazione, cioè come un trattamento sperimentale possa influenzare in modo diverso persone con caratteristiche diverse. I risultati hanno mostrato che i modelli avevano una capacità variabile nel prevedere come un trattamento sperimentale potesse influenzare persone con caratteristiche diverse. Questa capacità era piuttosto debole in alcuni casi e un po' più forte in altri. Per esempio, quando si guardava a come il trattamento influenzava il genere, l'etnia e l'appartenenza politica, le correlazioni grezze (che indicano quanto bene il modello riusciva a prevedere questi effetti) erano rispettivamente -0.01, 0.16 e -0.03. Questi numeri mostrano che, nel caso del genere e dell'appartenenza politica, il modello non prevedeva bene le differenze (valori vicini a zero o negativi indicano una scarsa capacità di previsione).
Tuttavia, quando i risultati venivano corretti per tener conto di alcuni fattori, la capacità predittiva migliorava, con valori di 0.17 per il genere, 0.55 per l'etnia e 0.41 per l'appartenenza politica. Questi valori corretti indicano una moderata capacità del modello di prevedere differenze basate su etnia e appartenenza politica, mentre per il genere rimaneva relativamente debole.
Previsioni efficaci degli interventi sociali con i modelli di linguaggio
Gli studi di previsione relativi agli interventi sperimentali sul campo o tramite sondaggi possono beneficiare dell'uso di modelli di linguaggio per simulare gli esiti delle sperimentazioni con una certa accuratezza. Questi modelli potrebbero essere utilizzati per prevedere i risultati di interventi mirati a generare impatti socialmente positivi, come promuovere atteggiamenti democratici, supportare azioni per contrastare il cambiamento climatico o aumentare l'intenzione di vaccinarsi. Il problema è che esistono molte più idee su come affrontare tali questioni sociali rispetto alla capacità di testarle o implementarle nella realtà. Per questo, i decisori politici spesso si affidano alle previsioni degli esperti, basate sulla loro esperienza, per selezionare quali interventi dovrebbero essere testati o implementati.
Un sistema basato su LLM potrebbe diventare un supporto utile per identificare in modo rapido ed economico gli interventi più efficaci, soprattutto se le sue previsioni risultano essere altrettanto precise, o persino superiori, rispetto a quelle degli esperti umani. Per indagare questa possibilità, sono stati raccolti e analizzati dati da un archivio supplementare contenente nove grandi esperimenti, denominati "mega-studi". Questi mega-studi hanno testato l'efficacia di numerosi interventi mirati a influenzare vari comportamenti e atteggiamenti sociali su un campione totale di oltre 1,8 milioni di partecipanti. Gli studi provengono da diverse discipline, come la psicologia, l'economia, la scienza politica, la sociologia e il marketing, e alcuni di questi includevano anche le previsioni degli esperti riguardo la probabile efficacia degli interventi.
La difficoltà di prevedere i risultati di questi mega-studi risiede nel fatto che molti interventi sono progettati per avere effetti nella stessa direzione rispetto all'obiettivo prefissato. Questo porta a differenze relativamente piccole tra le condizioni di trattamento, rendendo complicato per gli LLM distinguere l'efficacia degli interventi in maniera precisa. Inoltre, alcune sperimentazioni sono state condotte in contesti reali e non utilizzavano esclusivamente trattamenti testuali, complicando ulteriormente la possibilità di descrivere gli stimoli e i contesti degli studi nei prompt utilizzati dagli LLM.
Per valutare quanto bene i modelli linguistici di grandi dimensioni riescano a prevedere l'efficacia degli interventi in vari studi, è stata confrontata la differenza tra i risultati effettivi dei trattamenti e le previsioni fatte dai modelli. Successivamente, è stata calcolata una media complessiva di questi confronti per ottenere una valutazione generale delle capacità predittive dei modelli. I risultati hanno indicato che le previsioni derivate dagli LLM sono state più accurate per gli esperimenti basati su sondaggi rispetto a quelli condotti sul campo. Ad esempio, le previsioni degli LLM per gli esperimenti basati su sondaggi hanno ottenuto una correlazione positiva con gli effetti reali, risultando nel 79% delle previsioni nella direzione corretta. Al contrario, per gli esperimenti sul campo, la correlazione era inferiore e solo il 64% delle previsioni indicava la direzione giusta.
LLM e rischi di abuso nella creazione di campagne di disinformazione
L'uso dei LLM potrebbe comportare rischi legati alla loro capacità di prevedere i risultati di esperimenti che potrebbero avere conseguenze socialmente dannose. Sebbene questa capacità possa essere sfruttata per scopi positivi, come la moderazione dei contenuti, esiste il potenziale per un uso improprio, ad esempio, nella creazione di campagne di messaggi nocivi come quelli anti-vaccinazione. Gli LLM disponibili al pubblico sono progettati con protezioni di base per impedire la generazione diretta di contenuti dannosi, ma tali misure potrebbero non essere sufficienti a prevenire il loro utilizzo per selezionare contenuti dannosi tra diverse opzioni.
Per valutare questo rischio, è stato condotto un test su modelli di linguaggio disponibili, esaminando se, con le protezioni attive, possano essere usati per identificare messaggi dannosi. I dati di un recente esperimento hanno mostrato l'impatto di post su Facebook relativi alla vaccinazione sulla riduzione delle intenzioni di vaccinarsi contro il COVID-19. Le previsioni generate da GPT-4 sugli effetti di questi post erano significativamente correlate con le stime dell'effetto reale, suggerendo che il modello è in grado di individuare i contenuti con il maggiore impatto negativo sulle intenzioni di vaccinazione. Nello specifico, i cinque post identificati da GPT-4 come i più dannosi sono stati stimati nel loro impatto come capaci di ridurre le intenzioni di vaccinazione del 2,77%.
Questo risultato evidenzia che le protezioni attuali non sono sufficienti per impedire l'uso degli LLM nella creazione di contenuti efficaci per causare danni sociali. Inoltre, è stato osservato che la capacità predittiva dei modelli è aumentata con le generazioni successive, comparabile anche a modelli avanzati sviluppati da altre aziende, come Claude 3 Opus di Anthropic.
I risultati indicano che le aziende che forniscono accesso pubblico agli LLM potrebbero ridurre il rischio di abuso implementando protezioni aggiuntive di "secondo livello". Queste misure potrebbero limitare la capacità dei modelli di simulare esperimenti su trattamenti socialmente dannosi. Tuttavia, per consentire l'uso legittimo di queste capacità, ad esempio nella ricerca accademica o nella moderazione dei contenuti su piattaforme social, potrebbero essere previsti permessi speciali per derogare a tali protezioni in casi giustificati.
Conclusioni
Lo studio esplorativo condotto sulle capacità dei modelli di linguaggio di grandi dimensioni nel prevedere i risultati degli esperimenti nelle scienze sociali fornisce indicazioni chiave per il mondo aziendale, con implicazioni rilevanti per diverse aree, tra cui il marketing, la previsione delle vendite, l'accettazione dei prodotti e servizi, e l'adattamento della forza lavoro a nuove metodologie o riorganizzazioni.
In primo luogo, le scoperte suggeriscono che i LLM, come GPT-4, potrebbero diventare uno strumento strategico per le aziende nella simulazione delle reazioni dei consumatori a nuove campagne di marketing, prima ancora di investire risorse considerevoli in esperimenti sul campo o focus group tradizionali. Grazie alla loro capacità di prevedere con alta precisione l'efficacia di messaggi pubblicitari, promozioni e interventi sul comportamento dei consumatori, questi modelli offrono un'alternativa rapida ed economica rispetto ai metodi convenzionali. Un esempio pratico potrebbe essere la simulazione di reazioni a nuovi slogan o contenuti multimediali, evitando costosi test pilota e permettendo ai team di marketing di concentrarsi sui messaggi più promettenti già nella fase iniziale della progettazione.
In ambito previsionale delle vendite, l'uso dei LLM può rappresentare un'importante innovazione. I modelli possono simulare le risposte dei consumatori a variazioni di prezzo, modifiche nei punti vendita o a nuove modalità di distribuzione, prevedendo non solo l'accettazione o il rifiuto del cambiamento, ma anche la portata dell'impatto sul comportamento d'acquisto. In tal senso, gli LLM potrebbero potenzialmente sostituire o complementare strumenti tradizionali di forecasting, come i sondaggi o i modelli statistici basati su dati storici, migliorando la precisione delle previsioni in tempi più brevi e con minori risorse economiche impiegate.
Dal punto di vista dell'accettazione di nuovi prodotti o servizi, la capacità degli LLM di simulare reazioni demograficamente diversificate diventa cruciale. Le aziende che cercano di entrare in nuovi mercati o di lanciare prodotti innovativi possono utilizzare queste simulazioni per prevedere la ricezione di tali offerte su scala nazionale o internazionale, testando la risposta di specifici gruppi target senza la necessità di sondaggi estesi o analisi preliminari complesse. Questa tecnologia potrebbe ridurre i rischi di insuccesso, migliorando l'efficacia delle strategie di lancio di prodotti grazie alla possibilità di ottimizzare la messaggistica e il posizionamento prima di impegnarsi finanziariamente.
Inoltre, per quanto riguarda l'adattamento della forza lavoro a nuovi modelli di lavoro o riorganizzazioni, l'uso degli LLM può fornire insights preziosi sulle reazioni dei dipendenti a cambiamenti significativi all'interno delle aziende. La simulazione delle reazioni dei dipendenti a politiche organizzative, cambiamenti culturali o nuovi strumenti di lavoro può aiutare i leader aziendali a prevedere con maggiore precisione le possibili resistenze o le aree critiche su cui intervenire, riducendo tempi e costi legati all'implementazione di tali cambiamenti. Invece di affidarsi esclusivamente a sondaggi interni o consulenze esterne, che possono risultare costosi e limitati nella loro capacità di prevedere reazioni su larga scala, i modelli LLM offrono un'opzione scalabile e versatile per facilitare la transizione.
Tuttavia, lo studio evidenzia anche alcune limitazioni importanti. La precisione degli LLM è ancora influenzata da bias demografici, che potrebbero limitare la loro applicabilità in contesti particolari o per segmenti di mercato non adeguatamente rappresentati. Inoltre, gli LLM tendono a sovrastimare l'intensità degli effetti previsti, il che può portare a errori nelle stime di impatto. Le aziende dovranno considerare queste limitazioni e, quando possibile, integrare le previsioni dei modelli con dati reali o test mirati per garantire un approccio più equilibrato e accurato.
In conclusione, l'integrazione dei LLM nelle pratiche aziendali presenta vantaggi significativi in termini di velocità, costo ed efficacia delle previsioni rispetto ai metodi tradizionali, ma richiede un'attenzione costante ai potenziali rischi e bias. Le aziende che sapranno combinare le intuizioni derivanti dall'uso dei LLM con l'esperienza umana e i dati reali avranno una marcia in più nella pianificazione strategica e nell'implementazione di innovazioni di successo.
Comments