Risultati di ricerca

Servizi (1)

Post sul blog (656)

Altre pagine (23)

656 risultati trovati con una ricerca vuota

Generative AI e brevetti: le nuove frontiere della tecnologia
La ricerca intitolata “Generative Artificial Intelligence” Patent Landscape Report è stata condotta da Christopher Harrison, Lakshmi Supriya e Kai Gramke con il supporto della World Intellectual Property Organization (WIPO) . Il documento si concentra sulla recente crescita della Generative AI e sul quadro dei brevetti, sottolineando il legame tra Generative AI e Brevetti. L’indagine esplora applicazioni che spaziano dalla sintesi di immagini al supporto nelle fasi di progettazione industriale, con un’attenzione particolare ai diversi modelli, alle modalità di elaborazione dei dati e ai protagonisti globali coinvolti nello sviluppo. L’obiettivo principale è comprendere la direzione di questa tecnologia e i suoi molteplici effetti sulle strategie di business e ricerca. Generative AI e brevetti: le nuove frontiere della tecnologia Generative AI: Evoluzione storica e quadro generale L’attenzione per la Generative AI non è un fenomeno improvviso, benché la diffusione presso il grande pubblico sia esplosa solo di recente. Alcuni primi esperimenti, compiuti già diversi decenni fa, miravano a far apprendere a una macchina come generare testi, immagini o sequenze musicali. A quei tempi la potenza di calcolo era limitata e le architetture di rete neurale erano ancora lontane dal poter elaborare set di dati di grandi dimensioni. Il salto di qualità è avvenuto grazie alla disponibilità di computer più performanti , all’aumento di raccolte dati e all’evoluzione di algoritmi di deep learning capaci di apprendere in modo più efficace. Le storiche sperimentazioni di Joseph Weizenbaum, con un primo chatbot chiamato ELIZA, hanno aperto la strada a tutto ciò che oggi viene classificato come Generative AI. La pubblicazione del Transformer neurale nel 2017 ha costituito un passaggio decisivo. Questo modello, basato su meccanismi di autoattenzione, ha reso possibili le Large Language Models ( LLM ) che hanno fatto parlare di sé grazie a chat testuali in grado di simulare conversazioni sorprendentemente fluide. Nello stesso periodo, altri approcci come le Variational Autoencoders e le Generative Adversarial Networks hanno raccolto risultati significativi, soprattutto nella creazione di immagini di alta qualità. Nel 2022, l’interesse globale per la Generative AI è aumentato ulteriormente con l’introduzione di sistemi che generano immagini da semplici istruzioni testuali, ricevendo grande clamore mediatico e attirando investimenti significativi da parte di aziende tecnologiche e finanziarie. Uno degli elementi che rende le attuali applicazioni così efficaci è la possibilità di gestire dati provenienti da diverse modalità, come testo, immagini, audio e persino strutture molecolari. Questa tendenza rispecchia un’evoluzione rapida e trasversale che trova terreno fertile in diverse discipline, dalla chimica computazionale alla progettazione architettonica. È proprio la versatilità nell’affrontare input e output di varia natura a rendere la Generative AI così interessante per imprese e ricercatori. Le aziende possono costruire prototipi di prodotti più velocemente, ridurre costi di progettazione e automatizzare compiti ripetitivi. Parallelamente, i laboratori di ricerca usano tali strumenti per esplorare in modo più sistematico grandi quantità di dati, con opportunità di scoperte nel campo della salute, delle telecomunicazioni e dei trasporti. Il report di WIPO evidenzia come il numero di famiglie brevettuali connesse a questa tecnologia abbia raggiunto circa 14.000 pubblicazioni nel solo 2023, ponendo le basi per un probabile aumento ulteriore nei prossimi anni, complice un ritardo fisiologico che separa la data di deposito dal momento di pubblicazione. Se si estende l’analisi all’intero periodo 2014-2023, si raggiungono cifre ancora più alte, superando le 50.000 gruppi di brevetti correlati complessive. Un dato che colpisce e mostra come nel tempo questa tecnologia abbia ricevuto una spinta enorme. Con ogni probabilità, l’impulso è stato alimentato dalla popolarità di strumenti che generano testi, immagini e musica in maniera istantanea. Risulta quindi credibile supporre che nuovi brevetti si susseguiranno, man mano che le imprese e gli atenei investiranno risorse per non perdere terreno in questa competizione. Nel frattempo, molte persone comuni si sono avvicinate a software in grado di formulare risposte coerenti e di generare contenuti visivi stupefacenti da semplici descrizioni testuali. Un esempio emblematico è stata la rapidità con cui si è raggiunto il milione di utenti, meno di una settimana, in alcune piattaforme di chat basate su Large Language Models . Questo evento ha mostrato quanto la Generative AI sia ormai un fenomeno globale pronto a impattare su processi industriali e abitudini sociali. Oltre all’aspetto tecnologico, emerge una dimensione culturale di grande portata, legata alla creatività umana e al potenziale di collaborazione tra individui e macchine. Modelli chiave della Generative AI e trend brevettuali Nel quadro delle pubblicazioni brevettuali, il report “Generative Artificial Intelligence” identifica diversi modelli di punta che costituiscono il nucleo di tale tecnologia. È interessante notare come alcune sigle tecniche ricorrano frequentemente, come GAN (Generative Adversarial Networks), Diffusion Models , Variational Autoencoders e, più di recente, le Large Language Models . Ciascun approccio si adatta in modo peculiare a specifiche esigenze: generare immagini fotorealistiche, elaborare testo in modo coerente o tradurre input sonori in musica originale. L’analisi conferma come la maggior parte di chi deposita brevetti si concentri sul miglioramento di tali architetture, puntando a ridurre errori e a incrementare la qualità dell’output. Nei brevetti legati alle GAN , emerge con forza l’interesse per la sintesi di immagini o sequenze video, con possibili applicazioni che spaziano dalle simulazioni automobilistiche alla sicurezza informatica. Dalle cifre riportate, le pubblicazioni su questo tipo di modello superano nettamente i 9.000 brevetti negli ultimi anni. Le GAN funzionano tramite un meccanismo definito “competizione” o “adversarial”: un generatore crea immagini sintetiche, mentre un discriminatore cerca di distinguerle da quelle reali, spingendo il generatore a produrre contenuti sempre più convincenti. Questa architettura, se da un lato consente creazioni estremamente realistiche, dall’altro solleva interrogativi su possibili violazioni di copyright, manipolazioni dell’informazione e difficoltà nel riconoscere materiale autentico. I Variational Autoencoders, noti con l'acronimo VAE, rivestono un ruolo centrale nell'estrazione di strutture latenti dai dati. Questi strumenti consentono di creare nuove varianti di contenuti simili a quelli forniti in input, garantendo coerenza e uniformità. Queste reti trovano impiego nella creazione di immagini, ma anche nello sviluppo di composizioni musicali e perfino nella generazione di molecole in campo farmaceutico. Il report indica che le famiglie brevettuali a esse correlate hanno anch’esse registrato una crescita tangibile, pur essendo meno numerose rispetto a quelle basate su GAN. Un capitolo a parte merita la crescita delle Diffusion Models , che hanno ottenuto grande eco mediatica per la creazione di immagini da descrizioni testuali. Nel 2023 si sono contati svariati depositi che puntano a ottimizzare questa tecnica, rendendola più veloce e controllabile. L’idea chiave è “rimuovere il rumore” da un input casuale, passaggio dopo passaggio, sino a ottenere un’immagine definita. Nonostante numeri ancora più contenuti rispetto ai classici GAN, l’impennata dell’ultimo biennio fa supporre che presto molte aziende convergeranno su questa linea di ricerca, soprattutto per strumenti di fotoritocco avanzati o per generazioni di scene 3D. Spostando l’attenzione sul testo, le Large Language Models hanno avuto un’evoluzione interessante. Dai primi tentativi di generare testo coerente, si è arrivati a sistemi in grado di sostenere dialoghi ricchi, comprendere contesti e perfino codificare software. La pubblicazione di alcuni brevetti riconducibili a modelli di grandi dimensioni è ancora limitata rispetto alle alternative che si concentrano su immagini o audio, ma il trend è in ascesa. Alcune domande di brevetto fanno riferimento alla gestione di set di dati testuali enormi e all’ottimizzazione dei parametri delle reti neurali, mentre altre puntano a integrare i LLM con input multimodali, combinando ad esempio testo e immagini. È un segnale che la direzione futura si stia spostando verso modelli generalisti in grado di processare tipologie di dati multiple. Nel complesso, si osserva che le strategie brevettuali non sono focalizzate su un singolo modello, bensì su un ventaglio di soluzioni combinabili. È frequente che un brevetto copra più tipologie di approcci, evitando di vincolarsi unicamente a un’architettura. Questo riflette una logica di diversificazione: i depositanti desiderano proteggere l’idea in modo ampio, per coprire possibili sviluppi futuri. Da quanto emerge, la traiettoria di crescita dei brevetti nelle reti generative è destinata a proseguire, specie ora che la consapevolezza del valore di questi strumenti ha raggiunto sia le imprese consolidate sia le startup specializzate. Panorama globale: Brevetti e protagonisti della Generative AI Osservando la distribuzione geografica dei brevetti, la Cina si colloca al primo posto, con un volume di famiglie brevettuali che supera nettamente qualsiasi altro Paese. I dati indicano che dal 2014 al 2023 la Cina abbia originato più di 38.000 gruppi di brevetti correlati, collocandosi in testa sia come luogo di creazione sia come giurisdizione preferita per la protezione legale. Gli Stati Uniti seguono con una cifra comunque elevata ma che raggiunge circa 6.300 gruppi di brevetti correlati nello stesso periodo. L’insieme di questi due Paesi copre una porzione significativa dell’intero mercato brevettuale legato alla Generative AI, denotando un’evidente competizione per la supremazia tecnologica. Se si considera la scelta delle imprese su dove depositare, la Cina non è solo la prima in termini di invenzioni, ma anche la giurisdizione che attrae il maggior numero di depositi. Negli Stati Uniti, molte università e colossi tecnologici hanno presentato un ventaglio significativo di richieste di brevetto, puntando ad ampliare l’applicabilità commerciale in settori quali l’analisi testuale, la sintesi vocale e la generazione di immagini. In Asia, oltre alla Cina si notano la presenza notevole della Corea del Sud e del Giappone. In Europa, il Regno Unito e la Germania mostrano un aumento progressivo nel deposito di brevetti, anche se le cifre totali rimangono distanti da quelle asiatiche. Nondimeno, la presenza delle istanze europee in determinati settori, come la manifattura e la robotica, testimonia una vivacità di ricerca. A livello di attori industriali, una realtà che spicca è Tencent , seguita da Ping An Insurance Group e Baidu , tutte aziende cinesi che hanno saputo investire risorse nella creazione di chatbot, algoritmi di underwriting assicurativo e sistemi di riconoscimento visuale. Queste imprese dimostrano di coprire trasversalmente modalità differenti (testo, immagini, audio) e modelli di punta come GAN o LLM. La stessa accademia non è da meno: l’ Accademia Cinese delle Scienze vanta un portafoglio esteso, in particolare su soluzioni di image processing e reti neurali avanzate. Tra i grandi nomi occidentali emergono IBM , Alphabet (Google), Microsoft e alcune società specializzate in software come Adobe. IBM, ad esempio, si è mossa per sviluppare piattaforme incentrate sulla sicurezza dei dati e sulla compliance, mentre Google e Microsoft hanno anche investito nella personalizzazione di modelli linguistici di ampia scala e nella creazione di grandi ecosistemi di servizi cloud. Alcuni gruppi industriali coreani o giapponesi come Samsung o Sony rivelano un interesse particolare per la creazione di strumenti di generazione audio e video, da integrare nei dispositivi mobili o nelle console di intrattenimento. Certi depositi brevetto fanno pensare a futuri assistenti personali sempre più sofisticati. Nel complesso, queste dinamiche evidenziano come non esista una sola multinazionale in grado di dominare l’intero spettro tecnologico, ma piuttosto un panorama popolato di aziende e istituzioni che ricoprono ruoli differenti. C’è chi si concentra sui modelli testuali, chi punta sulle immagini, chi sullo sviluppo di processori ottimizzati per il calcolo neurale. Gli autori del report segnalano come la crescita degli ultimi anni sia correlata a grandi investimenti e a una corsa alla protezione brevettuale. Per molti depositanti, accumulare proprietà intellettuale in questo ambito significa garantirsi un vantaggio commerciale e legale, potendo monetizzare le licenze e limitare le mosse di potenziali concorrenti. Questo fenomeno ha attirato grandi gruppi assicurativi, banche, aziende farmaceutiche e perfino operatori della pubblica amministrazione, interessati a sfruttare le reti generative per analizzare grandi moli di dati. In parallelo, appare verosimile che diverse aziende emergenti vedranno nell’innovazione basata sulle LLM o sulle diffusion models l’opportunità di entrare su mercati di nicchia con soluzioni più agili. Il dato più rilevante è come si sia passati, in pochi anni, da meno di un migliaio di famiglie brevettuali all’attuale soglia di svariate decine di migliaia. Ciò conferma la Generative AI quale asset su cui le potenze economiche scommettono per il futuro, spingendo laboratori di ricerca e uffici brevetti a confrontarsi con una mole sempre più ampia di domande tecniche. Applicazioni della Generative AI: dall’industria alla creatività La versatilità della Generative AI emerge chiaramente analizzando gli ambiti applicativi. Un primo filone d’uso si concentra sulla produzione di contenuti visivi per il marketing, la pubblicità e l’intrattenimento. Qui, i brevetti puntano a potenziare la qualità delle immagini generate, la rapidità di elaborazione e la capacità di includere vincoli stilistici richiesti dai brand. Certe aziende mostrano esempi di piattaforme integrate, in cui bastano poche istruzioni testuali per generare immagini di prodotti, scenari virtuali o persino prototipi di packaging. Alcuni depositi si rivolgono al settore cinematografico, con algoritmi capaci di generare storyboard animati. Nelle applicazioni industriali , trova spazio la generazione di progetti tecnici, dal design di parti meccaniche a prototipi architettonici, fino all’ottimizzazione dei processi produttivi. Non mancano brevetti che descrivono l’utilizzo di reti neurali per la creazione di dati sintetici utili all’addestramento di veicoli autonomi o alla validazione di modelli di simulazione. Nel campo della medicina, la sintesi di immagini radiologiche o la progettazione di nuove molecole antitumorali approfittano delle potenzialità di reti generative allenate su dataset biologici. Alcune soluzioni brevettate, basate su VAE o Diffusion Models, permettono di esplorare combinazioni di molecole e di realizzare screening tramite simulazioni al computer su vasta scala, con un notevole risparmio di tempo rispetto ai test tradizionali. La gestione documentale è un altro ambito che desta molto interesse. I depositi indicano come la Generative AI possa automatizzare la stesura di testi complessi, la revisione di contratti e l’estrazione di informazioni da documenti lunghi o scarsamente strutturati. Alcune banche e studi legali hanno proposto sistemi in grado di generare bozze di clausole o di smistare in automatico enormi quantità di dati testuali. Accanto a ciò, i settori finanziari e assicurativi esplorano i chatbot evoluti per ridurre i tempi di gestione delle pratiche e offrire servizi di consulenza personalizzati ai propri clienti. La sicurezza informatica trova nella Generative AI sia un alleato sia un potenziale avversario. Da un lato, la capacità di generare dati o di analizzare pattern aiuta a identificare intrusioni e a rispondere rapidamente ad attacchi zero-day. Dall’altro, si teme che sistemi di generazione del testo possano creare e-mail di phishing estremamente credibili. Sul fronte delle telecomunicazioni, si notano brevetti che sfruttano la generazione di risposte vocali, magari con timbri personalizzati, per potenziare i call center o per impostare servizi di segreteria telefonica avanzati. In parallelo, la Generative AI si inserisce nella filiera produttiva dei dispositivi elettronici, migliorando i processi di test e abilitando servizi vocali evoluti che vanno dal riconoscimento al sintetizzatore di parlato multilingue. C’è poi un filone molto delicato legato alla creazione di contenuti artistici , come illustrazioni, musica e sceneggiature. Alcuni depositi brevettuali descrivono metodi per generare melodie ispirate a stili musicali famosi, con parametri che garantiscono risultati nuovi senza infrangere il diritto d’autore. Similmente, ci sono brevetti che mirano a generare ambienti 3D di grande complessità per il settore dei videogiochi, riducendo il carico di lavoro per grafici e game designer. Queste innovazioni suscitano entusiasmo, ma fanno sorgere questioni sulla tutela della creatività artistica. Le prospettive più avvincenti riguardano le applicazioni multimodali , capaci di ricevere immagini, testo e audio come input, integrandoli per fornire soluzioni contestuali più ricche. Alcuni depositi sperimentano questa strada per il mondo dell’istruzione, con strumenti in grado di spiegare concetti complessi a studenti, usando sia testi che rappresentazioni visive generate sul momento. Il settore pubblico, a sua volta, studia l’uso di grandi modelli generativi per ottimizzare la gestione del traffico, l’erogazione di servizi amministrativi e la pianificazione di interventi su larga scala in contesti urbani. Più in generale, dalla lettura dei brevetti emerge il tentativo di integrare la Generative AI in ogni comparto economico, con l’obiettivo di aumentare efficienza, flessibilità e automazione. Sfide e prospettive future nella brevettazione AI La crescita vertiginosa dei depositi brevettuali porta con sé sfide significative. Prima tra tutte, la questione della responsabilità legale . La Generative AI, infatti, crea contenuti complessi che possono violare diritti di terzi o generare ambiguità su chi detenga il copyright delle opere prodotte. Vi sono casi in cui i modelli attingono da enormi database di testi o immagini, e non sempre risulta semplice tracciare la paternità di quanto generato. Alcune normative, come quelle europee, stanno già discutendo nuove regole per chiarire i limiti di utilizzo dei dati e dei contenuti creati da sistemi di AI avanzata. Mentre in Cina si adottano linee guida rapide, negli Stati Uniti ancora si dibatte sulle responsabilità in caso di deepfake o di contenuti contraffatti. Tutto ciò indica un panorama regolatorio in evoluzione e un potenziale aumento dei contenziosi. La necessità di trasparenza è altrettanto cruciale. Se da un lato molte aziende mantengono segreti industriali per tutelare il proprio vantaggio competitivo, dall’altro cresce la richiesta di standard condivisi su sicurezza, affidabilità e tracciabilità del processo di apprendimento dei modelli. Alcune imprese temono che un modello generativo non sufficientemente controllato possa diffondere informazioni errate o discriminanti, con un impatto reputazionale negativo. Inoltre, si pongono interrogativi su come gestire eventuali bias insiti nei dati di addestramento, che possono riprodurre stereotipi e ingiustizie sociali. La comparsa di un regolamento dedicato, come l’AI Act europeo, cercherà di imporre parametri minimi di conformità, ma resterà da capire se tali interventi legislativi saranno in grado di tenere il passo con l’innovazione. Sul piano economico, la Generative AI promette di modificare la struttura occupazionale , affiancando o talvolta sostituendo competenze umane in settori come la grafica, la programmazione, la stesura di testi e la consulenza. Per i dirigenti aziendali, ciò richiede un ripensamento di strategie di formazione interna, per valorizzare le skill analitiche dei dipendenti e lasciare alle macchine i compiti ripetitivi. Alcuni studiosi ipotizzano una riorganizzazione su larga scala del lavoro, mentre altri osservano come questo nuovo scenario possa creare figure professionali finora inesistenti, ad esempio specialisti nella messa a punto di modelli di generazione o esperti di validazione di dataset sintetici. A livello di investimenti, si prevedono aumenti consistenti non solo in infrastrutture di calcolo (come GPU e cloud specializzati), ma anche in startup che offrono servizi verticali. Dai brevetti emergono indicazioni su come certe aziende stiano tentando di brevettare tecniche di ottimizzazione specifiche per implementazioni hardware, al fine di massimizzare prestazioni e ridurre i costi energetici. Un risvolto critico è proprio il consumo energetico di questi sistemi, che necessitano di enormi risorse computazionali per addestrare i modelli. Alcune iniziative di ricerca puntano a soluzioni più efficienti e a protocolli di addestramento parziale, che possano contenere gli impatti ambientali. La Generative AI, nel suo insieme, appare destinata a influenzare radicalmente il futuro delle industrie creative, della produzione di software e della gestione di dati. Dalla fotografia alla logistica, pochi settori potranno restare estranei alla spinta di automatizzazione e creazione intelligente di contenuti. Esistono ancora ostacoli tecnologici, come la difficoltà di dar vita a sistemi realmente generalisti in grado di gestire con precisione testi, immagini, suoni e video, ma il ritmo degli ultimi anni fa presagire un costante superamento di questi limiti. Sul piano dei brevetti, gli uffici competenti dovranno dotarsi di competenze specialistiche per valutare in modo adeguato le richieste di protezione, distinguendo le autentiche innovazioni dai semplici miglioramenti incrementali. Conclusioni L’analisi del panorama dei brevetti sulla Generative AI apre prospettive importanti per manager, imprenditori e appassionati di tecnologia. I dati suggeriscono che la ricerca sviluppata da grandi aziende e centri accademici, soprattutto in Cina e negli Stati Uniti, stia trainando il mercato, con un impatto sempre più rilevante su finanza, editoria, manifattura, sanità e sicurezza. La sfida più delicata è governare una crescita tanto rapida con regole chiare e condivise: da un lato occorre tutelare gli sforzi di ricerca e le innovazioni autentiche, dall’altro bisogna prevenire le distorsioni di mercato e i rischi per la privacy o la proprietà intellettuale. Il confronto con soluzioni simili già presenti sul mercato, come i tradizionali sistemi di machine learning, evidenzia la svolta introdotta dai modelli in grado di generare contenuti in modo spontaneo. Per i decisori aziendali, ciò significa rivedere i processi di sviluppo, integrando nelle strategie d’impresa la possibilità di sfruttare reti neurali creative. Al contempo, occorre valutare nuove forme di partnership, magari tra imprese e istituzioni di ricerca, per restare competitivi in un panorama che muta alla velocità della luce. Sotto una luce più strategica, la Generative AI potrebbe rappresentare un fattore di ridefinizione dei modelli di business, stimolando investimenti in hardware, software, formazione del personale e adeguamento alle normative. Che si tratti di migliorare un servizio clienti tramite chatbot avanzati o di adottare tool di design generativo per prodotti complessi, il potenziale è elevato e soltanto la lungimiranza dei dirigenti saprà catturarne il valore. Gli sviluppi futuri suggeriscono anche un confronto costante con la ricerca, poiché i progressi scientifici apriranno opportunità che pochi anni fa apparivano irraggiungibili. Restano da risolvere questioni sui diritti di chi crea e sulla tutela di chi utilizza, ma la tendenza appare inarrestabile e piena di fascino per chi sa coglierne i segnali. Podcast: https://creators.spotify.com/pod/show/andrea-viliotti/episodes/Generative-AI-e-brevetti-le-nuove-frontiere-della-tecnologia-e2srn3p Fonte: https://www.wipo.int/web-publications/patent-landscape-report-generative-artificial-intelligence-genai/en/index.html
Italia nel Blavatnik Index 2024: analisi e strategie per la pubblica amministrazione
L’Italia nel Blavatnik Index of Public Administration 2024 , frutto del lavoro del Professor Ngaire Woods, Lord Gus O’Donnell e del team della Blavatnik School of Government dell’Università di Oxford. La ricerca analizza la qualità delle amministrazioni pubbliche nazionali in 120 Paesi, ponendo l’accento su strategie, politiche, capacità di delivery e gestione interna del personale. Qui si approfondiscono i dati riguardanti l’Italia, che ottiene il ventesimo posto nell’indice complessivo con un punteggio di 0,72 su 1, evidenziando punti di forza e criticità in quattro ambiti fondamentali: Strategia e Leadership, Public Policy, National Delivery e Persone e Processi. Italia nel Blavatnik Index 2024: analisi e strategie per la pubblica amministrazione Contesto globale del Blavatnik Index 2024: L’Italia e i criteri di valutazione Il Blavatnik Index of Public Administration 2024 nasce dall’esigenza di confrontare, in modo sistematico, la capacità di gestione e di erogazione dei servizi pubblici nei diversi Paesi. L’idea di base è fornire uno strumento utile a ministri, dirigenti e altre figure strategiche per comprendere il posizionamento della propria amministrazione rispetto a una vasta platea di nazioni di ogni continente. Nell’elaborare questo approccio si è scelto di non misurare gli esiti delle politiche (come salute, istruzione, crescita economica), ma di focalizzarsi sulla solidità dei meccanismi interni, sulla gestione delle risorse e sulle modalità con cui si arriva alla formulazione, alla pianificazione e all’esecuzione delle politiche di governo. Per approfondire la situazione dell’Italia, occorre ricordare che il punteggio complessivo assegnato alla nostra amministrazione pubblica è 0,72, mentre la posizione in graduatoria è la numero 20 su 120 Paesi valutati. È un risultato che colloca il Paese nella fascia medio-alta a livello globale. In cima all’indice figurano Paesi come Singapore, Norvegia e Canada, che superano 0,80 di punteggio. Il confronto con nazioni che raggiungono o sfiorano livelli più elevati aiuta a individuare aree di miglioramento, soprattutto se si considera che la metodologia adottata punta a evidenziare aspetti riformabili, senza ridurre il tutto a un semplice esercizio di classifiche astratte. Per rendere chiara la logica dell’Index, si noti che le valutazioni si suddividono in quattro aree: Strategia e Leadership, Public Policy, National Delivery e Persone e Processi. Ognuna di queste comprende al proprio interno più temi, come l’integrità, l’uso dei dati, la gestione delle risorse umane, la digitalizzazione e molti altri. L’idea è fornire uno sguardo integrato sulle funzioni essenziali di una pubblica amministrazione: non soltanto la capacità di impostare politiche efficaci, ma anche l’abilità di condurre programmi complessi e di organizzare il personale in modo efficiente, senza dimenticare gli aspetti di trasparenza e apertura verso cittadini e imprese. Guardando all’Italia in un’ottica globale, il ventesimo posto indica che sussiste un discreto allineamento agli standard rilevati in altri contesti occidentali avanzati, ma allo stesso tempo si notano differenze nei singoli settori che emergono dal confronto con i paesi di vertice. Il punteggio attribuito all’Italia nei quattro domini non è infatti uniforme: se l’area Public Policy si colloca in quindicesima posizione, quella delle Persone e Processi arriva al trentatreesimo posto, segnalando possibili margini di intervento. Il risultato in Strategia e Leadership è il venticinquesimo posto, mentre nel dominio National Delivery si attesta al diciannovesimo. La rilevanza di questi dati risiede anche nella possibilità di identificare le relazioni tra i diversi campi: se la gestione interna del personale influenza il successo della messa in atto di politiche pubbliche, occorre capire come potenziare la coerenza organizzativa. Inoltre, la collocazione dell’Italia in posizioni di media classifica rispetto a Stati vicini nell’area occidentale, come la Francia (nona) o la Spagna (nona), permette di tracciare paragoni operativi. Capire perché altri Paesi europei superino talvolta la ventina di punti di distacco in specifici parametri può suggerire strategie di innovazione gestionale e di miglioramento continuo. Italia nel Blavatnik Index: strategia e leadership al 25° posto Il dominio Strategia e Leadership analizza la capacità di un governo di fissare obiettivi chiari, mettere in atto indirizzi trasversali e garantire comportamenti etici tra i propri funzionari. Questa sezione del Blavatnik Index of Public Administration 2024 include aspetti quali la qualità della visione strategica, la solidità delle strutture preposte al coordinamento tra i vari ministeri, la trasparenza nei processi decisionali e l’integrità morale di chi governa e amministra. In questa prospettiva, vengono considerati anche indicatori relativi alla prevenzione della corruzione e alla capacità di innovare, ovvero sviluppare idee e metodi nuovi per affrontare le sfide più urgenti. L’Italia si colloca al venticinquesimo posto in questo dominio. Ciò implica un discreto potenziale strategico, che tuttavia non raggiunge le punte di eccellenza di Paesi come Danimarca, Finlandia o Norvegia, i quali risultano ai primi posti proprio per la loro abilità di pianificare in maniera lungimirante e garantire un elevato grado di integrità. Alcuni indicatori riguardanti l’Italia appaiono in linea con la media dei Paesi analizzati, per esempio la disponibilità di norme anticorruzione e l’impegno nel rendere pubbliche parte delle informazioni sulle attività di governo. La difficoltà si evidenzia quando occorre assicurare reale apertura e coordinamento costante tra i diversi livelli ministeriali o fare scelte coraggiose in ambito di riorganizzazione della macchina statale. Gli autori del rapporto mostrano come i progressi in tema di integrità e comunicazione con i cittadini siano realizzabili soltanto se sostenuti da un quadro istituzionale stabile e da risorse adeguate. È importante notare che, nonostante gli sforzi legislativi degli ultimi anni, i risultati dipendono anche dalla percezione che funzionari e cittadini hanno del funzionamento della pubblica amministrazione. Nel caso italiano, alcuni progetti di semplificazione normativa o di innovazione dei sistemi digitali vengono percepiti come non perfettamente integrati con la tradizione amministrativa. Questo aspetto suggerisce che, per salire di posizioni in termini di Leadership, potrebbe essere utile investire ulteriormente nella formazione dei dirigenti e in politiche di reclutamento che valorizzino una mentalità manageriale unita a competenze specialistiche. La sezione strategica tiene conto anche della prontezza della pubblica amministrazione a adottare modelli organizzativi capaci di reagire a crisi impreviste. A differenza di altri indicatori presenti nell’Index, qui si presta molta attenzione alla capacità di elaborare piani orizzontali che coinvolgano tutti i ministeri. Se l’Italia mostra alcuni esempi di collaborazione interministeriale durante emergenze (come nel caso di situazioni sanitarie o ambientali), l’Index suggerisce che occorre creare strutture più forti per assicurare una pianificazione strategica indipendentemente dall’urgenza del momento. Un’ulteriore tematica inerente al dominio Strategia e Leadership concerne la presenza di una visione di lungo periodo rispetto alla sostenibilità e allo sviluppo economico. Nel calcolo finale dell’Index, si riscontra che le amministrazioni con migliori punteggi in questo ambito hanno definito direttive chiare sui piani futuri, applicando strumenti di consultazione con esperti e stakeholder. L’Italia, benché abbia una tradizione di dialogo con le parti sociali, necessita di consolidare i meccanismi di consultazione in modo da legare più efficacemente le strategie di crescita alla coesione territoriale e all’innovazione. Public Policy: L’Italia al 15° posto nel Blavatnik Index 2024 Nell’area Public Policy, l’Index valuta le funzioni più basilari della pubblica amministrazione: capacità di predisporre proposte di legge efficaci, regolamentare i mercati, coordinare l’attività finanziaria dello Stato e gestire situazioni di crisi. L’Italia raggiunge la quindicesima posizione su 120 Paesi, un risultato che segnala come la formulazione delle politiche sia uno dei punti più solidi del nostro quadro generale. Questo traguardo emerge soprattutto grazie alla maturità di alcuni processi legislativi e alla presenza di strutture tecniche che sostengono lo sviluppo di normative complesse. La performance relativamente alta in questo dominio dipende anche da una tradizione amministrativa che annovera figure con competenze tecniche di buon livello. Il meccanismo di policy making in Italia, tuttavia, si rivela a volte rallentato da processi di concertazione politica che, pur finalizzati a trovare ampie convergenze, rischiano di prolungare i tempi di approvazione delle riforme. Nel punteggio del Blavatnik Index incidono in maniera positiva alcune procedure di valutazione dell’impatto regolatorio, adottate ormai in molte filiere legislative, così come l’esistenza di forme di consultazione pubblica online per specifici provvedimenti. Tuttavia, per raggiungere Paesi ai vertici della classifica è consigliabile rafforzare le prassi di trasparenza nella spesa pubblica e ampliare le metodologie di valutazione ex ante ed ex post delle politiche. Il quindicesimo posto suggerisce che l’Italia, rispetto a molte nazioni di livello medio o basso, mostra una discreta padronanza dei meccanismi di redazione normativa e di vigilanza. Alcuni dati qualitativi evidenziano una particolare propensione a intervenire in modo regolatorio per risolvere problemi emergenti, come la tutela ambientale, ma rimangono zone d’ombra nella rapidità d’esecuzione e nel coordinamento con gli enti locali. Non a caso, uno dei temi considerati dall’Index, la gestione di crisi e rischi, appare centrale: la pandemia e altre emergenze hanno spinto l’Italia a sperimentare processi di risposta complessi, che in parte hanno funzionato e in parte hanno rivelato la necessità di adottare sistemi di monitoraggio più omogenei. Sul versante dei dati e delle informazioni statistico-amministrative, l’Index dà rilievo alla disponibilità e alla trasparenza di database utili a chi decide le politiche. Da questo punto di vista, il quindicesimo posto include anche una valutazione dei sistemi di open data, cioè la diffusione di informazioni pubbliche affidabili e consultabili da cittadini e imprese. Il rapporto segnala miglioramenti rispetto al passato, con banche dati più facili da reperire sul web, ma anche qualche passo ulteriore da compiere per rendere i dataset più completi e uniformi. Ciò potrebbe tradursi in una maggiore precisione nella definizione di nuove leggi, evitando ridondanze e proposte normative sovrapposte. Un aspetto interessante, infine, tocca la dimensione della crisi e del rischio, che l’Index accorpa ai fattori di policymaking. L’Italia dispone di una struttura di Protezione Civile riconosciuta a livello internazionale, ma le condizioni di fragilità del territorio, con frequenti eventi sismici e idrogeologici, mettono alla prova la solidità delle scelte politiche. La posizione relativamente buona nel dominio Public Policy conferma che esistono competenze e procedure consolidate, ma sottolinea anche l’importanza di rafforzare la capacità di prevenzione e di coordinamento fra ministeri ed enti periferici, affinché la risposta agli eventi catastrofici sia sempre più rapida ed efficiente. National Delivery: L’Italia al 19° posto nel Blavatnik Index 2024 La dimensione National Delivery si concentra sulla capacità di uno Stato di erogare e monitorare i servizi fondamentali di competenza centrale, come la digitalizzazione, la riscossione fiscale, la gestione dei confini e la supervisione di alcuni settori chiave. L’Italia ottiene il diciannovesimo posto in questa sezione, con un risultato che, a prima vista, può apparire incoraggiante rispetto alle complessità che caratterizzano il nostro apparato statale. In particolare, la classifica evidenzia discreti risultati nell’efficienza delle procedure doganali e un buon livello di digitalizzazione in alcuni servizi pubblici a livello nazionale, sebbene rimangano notevoli differenze tra enti e regioni nel passaggio dal cartaceo all’online. Uno dei temi analizzati è il modo in cui l’amministrazione centrale esercita la cosiddetta “system oversight”, cioè la capacità di assicurare che le politiche siano effettivamente portate a compimento in maniera coerente. In questo quadro, l’Italia viene valutata soprattutto sulla sua capacità di raggiungere gli obiettivi prefissati a livello governativo, anche quando la gestione operativa ricade su enti subordinati o su entità locali. Il fatto che la posizione in classifica sia la numero 19 suggerisce un livello di supervisione tutto sommato positivo, ma che non sempre viene messo in pratica con uniformità in tutto il Paese. Alcune realtà ministeriali hanno mostrato buone pratiche di monitoraggio continuo, mentre altre faticano a implementare le linee guida. Per quanto concerne la tassazione, il Blavatnik Index osserva la qualità della gestione fiscale, valutando aspetti come la facilità di compilazione e pagamento delle imposte e l’adozione di canali digitali. L’Italia, nel panorama globale, è migliorata negli ultimi anni grazie a sistemi telematici più evoluti. Ciò non toglie che persistano perplessità sull’efficacia del contrasto all’evasione e sulle differenze che ancora si manifestano nella percezione di equità fiscale. La diciannovesima posizione indica che, benché non si rientri tra i casi virtuosi come Spagna o Singapore, esiste un potenziale sufficiente a consentire una gestione moderna, specie se ci sarà continuità nelle iniziative di aggiornamento dei servizi e nella formazione specifica del personale. Nell’ambito della digitalizzazione, la performance italiana mostra alcuni indicatori positivi legati alla disponibilità di piattaforme online, come l’identità digitale o l’accesso telematico ad alcuni servizi di previdenza. Questo fa guadagnare punti rispetto a Paesi in cui il processo di e-government è meno consolidato, ma rimane distante dai migliori punteggi internazionali in cui l’intera filiera amministrativa risulta integrata. Il Blavatnik Index tende a valorizzare quelle realtà capaci di offrire servizi integrati dal punto di vista tecnologico e di monitorarne gli effetti con dati precisi. Un altro aspetto toccato dal dominio National Delivery riguarda la gestione dei confini e la fluidità dei commerci internazionali. L’Italia possiede un buon sistema doganale e infrastrutture portuali e aeroportuali di rilievo, ma la complessità regolatoria dell’Unione Europea, nonché la disomogeneità delle competenze, può rallentare certi passaggi. Emerge l’opportunità di semplificare e uniformare le pratiche di frontiera, in modo che l’erogazione dei servizi risulti ancor più rapida e trasparente. In definitiva, il diciannovesimo posto nel dominio National Delivery riflette un insieme di fattori eterogenei, dove l’Italia mostra, da un lato, un apprezzabile livello di modernizzazione in alcune aree e, dall’altro, la necessità di eliminare frammentazioni ancora radicate. Persone e processi: riforme per l’Italia nel Blavatnik Index 2024 La quarta dimensione del Blavatnik Index, denominata Persone e Processi, comprende temi fondamentali come la gestione delle risorse umane, la diversità e l’inclusione nel pubblico impiego, le procedure di procurement e la presenza di infrastrutture tecnologiche e ambienti di lavoro adeguati. L’Italia si posiziona al trentatreesimo posto, risultato meno brillante rispetto alle posizioni ottenute negli altri tre domini. Questo indicatore segnala quindi un potenziale margine di riforma e miglioramento, specialmente in relazione all’innovazione organizzativa e alla soddisfazione del personale. Un primo punto di attenzione riguarda la gestione del personale, che l’Index considera sotto vari aspetti: dai criteri di selezione e promozione fino alla trasparenza nelle opportunità di carriera. Se, da un lato, esistono diverse normative volte a garantire procedure concorsuali imparziali, dall’altro emergono difficoltà nella valorizzazione delle competenze a lungo termine e in una programmazione strategica del turnover. La relativa bassa collocazione dell’Italia, rispetto a Paesi leader in questo campo, segnala che occorre una revisione dell’apparato di regole contrattuali per consentire un migliore incontro tra competenze specialistiche ed esigenze operative. Sul fronte della diversità e inclusione, l’Index sottolinea la percentuale di donne e di altri gruppi rappresentati all’interno dell’amministrazione. L’Italia presenta buone norme antidiscriminatorie e ha introdotto quote di genere in alcuni segmenti della dirigenza pubblica. Tuttavia, l’effettivo impatto di tali misure è giudicato ancora migliorabile, dato che rimangono squilibri di presenza femminile nei ruoli apicali, specialmente in determinati ministeri. Il punteggio colloca il Paese in una posizione di sostanziale media, ma lontano dai livelli di alcuni stati nordeuropei, che da decenni investono in politiche di pari opportunità strutturate. La parte del dominio dedicata ai processi include inoltre la trasparenza e l’efficacia negli appalti pubblici, cruciali per garantire un utilizzo corretto e rapido delle risorse finanziarie. L’Italia sconta talvolta lacune nei sistemi di gara e nella disponibilità di dati aperti sugli aggiudicatari, anche se sono stati compiuti vari sforzi negli ultimi anni per allinearsi agli standard europei. Come evidenziato nel rapporto, molti Paesi ben posizionati hanno un sistema di procurement digitalizzato e centralizzato, in grado di generare un monitoraggio continuo e diffuso. Nel contesto italiano si avverte l’esigenza di completare il processo di standardizzazione, assicurando sia controlli efficaci sia tempistiche accelerate. La sezione dedicata a Persone e Processi analizza infine la tecnologia e gli ambienti di lavoro, elemento chiave per misurare l’adeguatezza dell’infrastruttura IT nel gestire la documentazione, i flussi di lavoro e le comunicazioni interne. L’Italia, pur avendo sviluppato piattaforme innovative in settori come la fatturazione elettronica e l’identità digitale, risente ancora di una frammentazione nelle soluzioni adottate dai diversi enti e ministeri. Il trentatreesimo posto in questa dimensione richiama quindi l’attenzione sull’importanza di un investimento coordinato, che vada oltre l’implementazione di singoli software, puntando a una revisione complessiva dei processi amministrativi e alla formazione del personale per un uso efficace degli strumenti digitali. Conclusioni L’esperienza dell’Italia nel Blavatnik Index of Public Administration 2024 mostra un quadro eterogeneo, dove il punteggio complessivo di 0,72 e la ventesima posizione generale convivono con differenze marcate tra i quattro domini. I risultati delle singole aree suggeriscono che esistono punti di forza, come la formulazione delle politiche e la gestione di alcuni servizi centrali, ma anche ambiti ancora lontani dalle migliori pratiche internazionali, in particolare nella valorizzazione del personale, nell’innovazione gestionale e in certi aspetti di trasparenza. Considerando lo stato dell’arte delle pubbliche amministrazioni in contesti internazionali, è utile riflettere su come altri Paesi europei, come Danimarca o Norvegia, abbiano sviluppato strutture di leadership e strategie di lungo termine, integrandole con sistemi trasparenti di gestione del personale. Diversi Paesi, tra cui Francia e Spagna, hanno rafforzato i canali di consultazione e la digitalizzazione dei servizi, conseguendo punteggi più alti nei domini che l’Italia desidera migliorare. La prospettiva realistica è che il nostro Paese, già ben posizionato in alcune componenti di policy, debba ora concentrare gli sforzi nel potenziare la qualità dei processi interni, puntando su organigrammi meno frammentati e su progetti di trasformazione digitale capaci di raccogliere e sfruttare i dati in modo trasversale. Le implicazioni strategiche per imprenditori e manager, che considerano l’amministrazione pubblica un partner e un regolatore di primaria importanza, evidenziano la necessità di avanzare proposte volte a semplificare le procedure e promuovere pratiche di gestione degli acquisti più efficienti, così da incentivare gli investimenti e migliorare la competitività. In un contesto globale in cui la dinamicità rappresenta un elemento chiave, il potenziamento di strutture di leadership focalizzate sull’innovazione organizzativa può aumentare la capacità dello Stato di supportare progetti complessi e iniziative di sviluppo. Nell’ambito del Blavatnik Index, l’Italia dispone di solide fondamenta, ma per migliorare la propria posizione è indispensabile intervenire sui meccanismi di coordinamento e gestione interna, accelerando l’attuazione delle riforme e ottimizzando la qualità dei servizi rivolti a cittadini e imprese. Podcast: https://creators.spotify.com/pod/show/andrea-viliotti/episodes/Italia-nel-Blavatnik-Index-2024-analisi-e-strategie-per-la-pubblica-amministrazione-e2srhq4 Fonte: https://www.bsg.ox.ac.uk/research/publications/blavatnik-index-public-administration-2024-report
Uncertainty Estimation in Text Generation: A New Metric for Language Models (LLMs)
The study “Rethinking Uncertainty Estimation in Natural Language Generation” by Lukas Aichberger, Kajetan Schweighofer, and Sepp Hochreiter, conducted at ELLIS Unit Linz and LIT AI Lab, Institute for Machine Learning, Johannes Kepler University Linz, and NXAIGmbH, focuses on the goal of improving uncertainty estimation in text generation produced by large-scale language models. The research proposes a more efficient criterion for uncertainty estimation in text generation, without resorting to repeated multiple generations. Its core is a theoretical and experimental analysis of the G-NLL metric, which aims to simplify the calculation of uncertainty while maintaining statistical consistency. Uncertainty Estimation in Text Generation: A New Metric for Language Models (LLMs) Challenges of Uncertainty Estimation in Text Generation: Why G-NLL Is Key Large-scale language models (LLMs) generate text autoregressively; thus, each token is chosen based on previous tokens and on the probabilities learned during training. This mechanism can produce potentially different outputs, even with the same prompt, because the generation process relies on a stochastic procedure. Such a characteristic makes it difficult to pinpoint how “certain” a model is about what it produces. The analysis presented in “Rethinking Uncertainty Estimation in Natural Language Generation” emphasizes how challenging it is to assess the reliability of sentences generated by LLMs, especially when trying to measure potential error. Many reference methodologies rely on an approach that involves sampling multiple output sequences. The uncertainty estimate depends on the way the model distributes probability across possible generated sentences: if the candidate texts turn out to be very similar to one another, one expects a relatively low uncertainty; if, however, those texts differ significantly, the sense of uncertainty is higher. The authors highlight how classic methods resort to multiple output samples, then compute measures such as Predictive Entropy or Semantic Entropy, both grounded in log-likelihood principles. The first considers the overall probability distribution of sentences, while the second seeks to capture any semantic difference between outputs that appear different but are equivalent in meaning. Although these systems show a certain realism in representing uncertainty, they require high computational power due to the number of generated sequences. It has been observed that, with modern large-scale models, predicting each token is no trivial task: these networks can reach billions of parameters—like those with 7, 8, or 70 billion parameters mentioned in the research—and massive sampling increases response time and resource use. The study examines the complexity of sampling multiple sentences and interpreting them with possible additional semantic inference models. These steps, while increasing accuracy, have a considerable impact on the real-world use of such algorithms, especially if adopted on a large scale, for instance in the automation of enterprise processes. The picture that emerges indicates how useful it would be to have a more streamlined metric, able to faithfully summarize how much confidence the model has in a single generated sequence. Such a perspective is strategic for managers and executives who aim to leverage language models without incurring excessive latency or overly burdensome infrastructure. The research proposes a novel approach to uncertainty estimation in text generation by focusing on the probability of the single most plausible sentence. The idea stems from the theory of proper scoring rules, among which the zero-one score stands out as an alternative reference to log-likelihood. From this premise, the study introduces the G-NLL metric, linked to the idea of focusing on the highest-probability sentence. If estimating the entire distribution is impractical—because very long combinations require prohibitively large computations—concentrating on the “greedy” sequence (that is, the one that selects the most likely token at every step) drastically reduces computational costs. This first section highlights the urgency of a more accessible approach to quantifying uncertainties in text generation. There is mounting pressure to combine accuracy, transparency, and operational speed, especially as the models scale up and both market and research interests shift toward complex tasks such as question answering, composing specialized summaries, or handling document processing. G-NLL: A Groundbreaking Metric for Estimating Uncertainty The core of the research is the definition of G-NLL, an acronym indicating the Negative Log-Likelihood of the most probable sequence generated by a language model. This metric is based on the idea of replacing the traditional log-likelihood with another scoring function, the so-called zero-one score, which emphasizes the most plausible prediction and reduces the weight of less likely alternatives. When we refer to the zero-one score, we mean a measure that is 1 if the output coincides with the most likely one and 0 for the less likely one. Applied to the world of language models, this logic translates into controlling the token considered “best” at each step. The authors provide an explicit formula to explain G-NLL. If, for an output consisting of T tokens, the generation follows a greedy decoding path, then the metric is: G-NLL = - sum_{t=1}^T [ log( max_{y_t} p(y_t | x, y_<t, w) ) ] where p(y_t | x, y_<t, w) represents the probability of token y_t given input x and the preceding tokens y_<t according to the model with parameters w. This formula directly captures how inclined the model is toward the generated sequence token by token. If the product of these probabilities is high, the G-NLL will be low, indicating high confidence; conversely, a high G-NLL suggests that the model struggles to maintain steady confidence in its generation choices. The theoretical motivation rests on the difference between the family of so-called “logarithmic” scores, which underlie measures such as Predictive Entropy and Semantic Entropy, and the family based on the zero-one score. In the first case, the entire distribution of possible sentearees (or the entire set of semantic clusters) is considered; in the second, the focus is on the probability peak corresponding to the most likely output. It appears that if the true distribution of texts were known and easily manageable, entropy-based estimates involving multiple samples could provide more comprehensive information. However, with ever-larger models, it becomes difficult—if not impossible—to explore the space of possible outputs. Hence the interest in G-NLL: by estimating uncertainty from a single greedily decoded sequence, multiple generation costs are eliminated, and one obtains a method consistent with the mathematical framework of scoring rules. Moreover, the paper shows that estimating the entire distribution by sampling several outputs often leads to high variance and does not always guarantee finding the most likely sequence. By contrast, greedy decoding has a solid chance of identifying maximum likelihood in a single pass, facilitating large-scale feasibility of the uncertainty estimation process. This line of research falls within a broader exploration of methods aimed at capturing aleatoric uncertainty (due to the model’s stochastic nature) and epistemic uncertainty (due to lack of knowledge about the true parameters and the limitations of the data). G-NLL primarily focuses on the aleatoric uncertainty of the single chosen sequence, reflecting how certain the model deems that output at every decoding step. G-NLL vs. Traditional Metrics: The Battle of Efficiency The empirical part of the work compares G-NLL with well-established metrics in the field, particularly Predictive Entropy (PE), Semantic Entropy (SE), and some of their length-normalized or discrete variants (LN-PE, LN-SE, D-SE). Unlike G-NLL, these measures require multiple sampling of possible outputs. The authors conducted experiments on three datasets: TriviaQA, with over 3,000 factual questions; SVAMP, with just over 300 elementary arithmetic exercises; and NQ-Open, with more than 3,600 questions collected from the Google search engine. They evaluated two types of generation: a short one, more concise and focused on direct answers, and a long one, where the model was asked to produce more discursive sentences. Moreover, different models were considered, both in architecture (transformer and state-space) and in size (7, 8, and 70 billion parameters). Some were simple pre-trained versions (PT), others were further trained with instruction-tuning (IT). The aim was to test whether the uncertainty measurement maintained consistent performance across different scenarios and networks. The correctness criterion for the answer was measured in two ways: using the SQuAD F1 metric on a 0.5 threshold for short texts, or having the answer evaluated by an LLM-as-a-judge model with 70 billion parameters, to cover the longer generations as well. In essence, an answer was labeled as correct if it exceeded the similarity threshold with the canonical solution or if it was deemed coherent by a large-scale model. Results show that G-NLL achieves competitive or superior AUROC (Area Under the Receiver Operating Characteristic) values compared to other measures, with sharper differences especially when the model generated short sentences. For instance, in some tests on models with 7 or 8 billion parameters in a pre-trained setting, G-NLL reached peaks of 0.82–0.84, while log-likelihood-based entropies, even when supported by 10 output samples, remained around 0.77–0.80. The given explanation is that in contexts requiring concise responses, the most likely sequence already captures the model’s ability to be confident in what it produces, making the calculation of multiple text variants superfluous. Another experiment on synthetic data—with reduced vocabularies and short sequences—confirmed how easily greedy decoding finds the highest-probability sequence. Random sampling with variable temperature showed higher variance with just a few samples, whereas greedy or low beam-search decoding yielded very stable estimates of the maximum sequence probability. The final analysis suggests that if the sole objective is to understand how much the model “believes” in the generated sentence, generating a single greedy sequence may suffice. Although G-NLL does not incorporate the semantic reflection inherent in metrics such as Semantic Entropy, the empirical data show that semantic inference adds cost and complexity. In an industrial or production context, reducing response latency can be critical. Therefore, adopting an immediate measure such as G-NLL, which relies on a single pass, takes on strategic importance in many real-world applications. Business Advantages of G-NLL in Language Models The study highlights a fundamental advantage of G-NLL for uncertainty estimation in text generation: simplicity. Instead of generating multiple sequences for semantic comparisons, G-NLL evaluates the log-likelihood of the most likely sequence, ensuring efficiency. A crucial aspect for a company wanting to integrate LLMs into its processes is the handling of execution time and the associated computational costs. Generating multiple output variants doubles or triples response times, and the subsequent content analysis to check for semantic differences further increases the load. With G-NLL, response construction coincides with uncertainty estimation. The system produces the most likely text via greedy decoding, calculates the token-by-token probability, and provides a single negative log-likelihood value that quantifies confidence. In B2B lead generation scenarios, for example, it might be important to receive quick answers to questions about products or services. Having a tool that also indicates how unreliable the generated text might be would allow setting a threshold beyond which human intervention becomes necessary. Simplicity here is accompanied by a solid theoretical basis, as G-NLL stems from proper scoring rules, particularly through replacing the log-score with the zero-one score. This ensures that the metric respects the sound statistical properties required when evaluating the coherence of a probabilistic model. It is not merely a heuristic “trick,” but rather a method anchored in rigorous principles. This point is valuable for managers who need to justify introducing LLMs to stakeholders and investors, ensuring that uncertainty evaluation is not just an improvised accessory but a carefully designed functionality. The results obtained with the large models studied suggest that G-NLL could serve as a new baseline for future research in uncertainty estimation. However, there is room for improvement. The paper points out that a single sequence ignores the question of semantic diversity. Should a company need to generate lengthy documents, it may be wise to incorporate the semantic dimension, especially when the expository style and rhetorical structure matter as much as the answer itself. Nonetheless, if the primary objective is to validate the quality of a short, direct generation, G-NLL appears unusually effective, being an immediate calculation. An operational example illustrating the usefulness of G-NLL is automated FAQ management. If the system generates a short answer for each question, the G-NLL value indicates how confident the model is in that answer. By setting a threshold, one can automatically select which answers require manual review before publication. In this way, if the G-NLL is very high (and therefore the model’s confidence is low), the answer is rechecked by a human operator, minimizing errors and safeguarding the company’s reputation. Future Perspectives on Uncertainty Estimation with G-NLL The final section of the research points out several possible developments. First, it highlights that G-NLL does not distinguish between correct sentences and sentences that may be semantically misleading but formally coherent: it remains an estimate of how plausible the model considers its output. In the future, it would be interesting to explore metric variants that also account for semantic aspects while preserving the single-sequence lightness. A large model that generates long or very complex texts might benefit from a hybrid approach in which real-time uncertainty assessment is paired with content checks, incurring additional computational cost only when G-NLL signals a peak of potential inaccuracy. The research also emphasizes the importance of addressing length normalization, an aspect already explored by other metrics such as LN-PE, LN-SE, and D-SE, which discretize possible meaning clusters. The goal is to ensure that uncertainty measurement is not skewed by very long or very short sequences. This could be essential in applications like document summarization, where output length varies greatly. Nonetheless, empirical results show that, despite normalization, entropy-based measures still require multiple generations, remaining expensive in operational environments. Strategic implications are clear. Many companies rely on LLMs to generate text at scale, from customer care to creating website content. The ability to integrate a lightweight reliability index into any workflow, without doubling computation costs, boosts investors’ and partners’ confidence. If well implemented, uncertainty estimation can serve as an alert system and mitigate the risk of problematic outputs. At the same time, it offers a clearer view of the model’s shortcomings and the need for training-data updates. The research suggests that the future debate will not only involve generative accuracy, but also the quality of uncertainty estimation, as a tool for analysis and error mitigation. There are already lines of work involving conformal prediction or the use of external cross-analysis models. G-NLL stands as an important piece of this puzzle, thanks to its balance between ease of application and grounding in formal scoring theories. All this without requiring cumbersome multiple-generation phases. Conclusions “Rethinking Uncertainty Estimation in Natural Language Generation” raises a crucial issue for those who adopt large language models in real contexts: the uncertainty that accompanies every textual generation is not merely a technological limitation but also a factor of risk and responsibility for those who must turn the power of LLMs into a competitive advantage. The G-NLL proposal marks an interesting step forward in uncertainty estimation for text generation, since it aims to contain computational costs while freeing up resources for higher-value activities. A point that merits particular attention for entrepreneurs and managers is how G-NLL can become a concrete indicator of the model’s confidence in its own outputs, especially when deploying at scale. Instead of multiplying the number of generations—and therefore response times and computing costs—the metric leverages a single greedily decoded sequence. This approach makes it possible to reduce latency and establish quicker decision-making processes, which can accommodate ever-larger language models without undermining the robustness of analyses. Nevertheless, G-NLL is not without limitations: the semantic richness required by certain applications might need a comparison among multiple text variants. A hybrid strategy, in which in-depth semantic checks are carried out only when G-NLL indicates low confidence, could offer a good compromise between accuracy and pragmatism. In other words, a company could use G-NLL as a warning threshold, deciding to allocate additional verification resources only where the model shows particular uncertainty. This perspective brings attention to the cost–benefit analysis of adopting large language models in everyday operations: with G-NLL, one can plan validation procedures that are calibrated to the level of risk, intelligently distributing human and computational resources. Ultimately, using an agile metric for uncertainty estimation represents an opportunity to strengthen trust in LLMs, maximize productivity, and maintain strategic oversight of the performance of textual generation systems. Podcast: https://creators.spotify.com/pod/show/andrea-viliotti/episodes/Uncertainty-Estimation-in-Text-Generation-A-New-Metric-for-Language-Models-LLMs-e2sqt9b Source: https://arxiv.org/abs/2412.15176
Stima dell’incertezza nella generazione di testo: una nuova metrica per i modelli linguistici (LLM)
Lo studio “Rethinking Uncertainty Estimation in Natural Language Generation” di Lukas Aichberger, Kajetan Schweighofer e Sepp Hochreiter, condotto presso ELLIS Unit Linz e LIT AI Lab, Institute for Machine Learning, Johannes Kepler University Linz e NXAIGmbH, si concentra sull’obiettivo di migliorare la stima dell’incertezza nella generazione di testo prodotta dai modelli linguistici su larga scala. La ricerca propone un criterio più efficiente per la stima dell’incertezza nella generazione di testo , senza ricorrere a ripetute generazioni multiple. Il fulcro è l’analisi teorica e sperimentale della metrica G-NLL , che mira a semplificare il calcolo dell’incertezza mantenendo coerenza statistica. Stima dell’incertezza nella generazione di testo: una nuova metrica per i modelli linguistici (LLM) La stima dell’incertezza nella generazione di testo nei modelli di linguaggio: necessità e sfide I modelli di grandi dimensioni (LLM), generano testo in modo autoregressivo; quindi, ogni token viene scelto basandosi sui token precedenti e sulle probabilità apprese in fase di addestramento. Questo meccanismo produce output potenzialmente diversi, anche con lo stesso prompt, perché la generazione si appoggia su un processo stocastico. Tale caratteristica rende complesso individuare quanto un modello sia “sicuro” di ciò che produce. L’analisi presentata in “Rethinking Uncertainty Estimation in Natural Language Generation” sottolinea quanto sia impegnativo valutare l’affidabilità delle frasi generate dai LLM, specie quando si cerca di misurare l’errore potenziale. Molte metodologie di riferimento si fondano infatti su un approccio che implica il campionamento di svariate sequenze d’uscita. La stima dell’incertezza dipende dal modo in cui il modello distribuisce la probabilità sulle possibili frasi generate: se i testi candidati risultano molto simili tra loro, ci si aspetta un’incertezza relativamente ridotta; se invece tali testi divergono sensibilmente, la percezione di insicurezza risulta più alta. Gli autori evidenziano come i metodi classici ricorrano a campionamenti multipli dell’output, per poi calcolare misure come la Predictive Entropy o la Semantic Entropy , entrambe ancorate ai principi della log-likelihood. La prima considera la distribuzione di probabilità complessiva delle frasi, mentre la seconda cerca di cogliere l’eventuale differenza semantica fra output apparentemente diversi, ma equivalenti dal punto di vista del significato. Questi sistemi, benché mostrino un certo realismo nel rappresentare l’incertezza, richiedono una potenza computazionale elevata per via del numero di sequenze generate. È stato rilevato che, con i modelli moderni di grandi dimensioni, predire ogni token non è banale: si tratta di reti che arrivano a miliardi di parametri, come quelle a 7, 8 o 70 miliardi di parametri menzionate nella ricerca, e un campionamento massiccio aumenta il tempo di risposta e le risorse impiegate. Il lavoro esamina la complessità di campionare più frasi e di interpretarle con eventuali modelli addizionali di inferenza semantica. Sono fasi che incrementano la precisione ma incidono in modo considerevole sull’uso reale di questi algoritmi, specialmente se adottati su vasta scala, come nell’automazione di processi in ambito aziendale. Il quadro che emerge indica quanto sia utile disporre di una metrica più snella, capace di riassumere con buona fedeltà quanta fiducia il modello abbia nella singola sequenza generata. Una simile prospettiva risulta strategica per responsabili e dirigenti che puntano a sfruttare i modelli linguistici senza incorrere in tempi di latenza eccessivi o in infrastrutture troppo onerose. La ricerca propone di sostituire l’intera distribuzione di frasi possibili con la probabilità della sola frase più plausibile. L’idea nasce dalla teoria delle proper scoring rules , tra cui spicca la zero-one score come riferimento alternativo alla log-likelihood. Da questa impostazione emerge la metrica chiamata G-NLL , correlata all’idea di concentrare l’attenzione sulla frase a massima probabilità. Se stimare l’intera distribuzione risulta impraticabile, perché combinazioni molto lunghe richiedono un calcolo proibitivo, focalizzarsi sulla sequenza “greedy” (cioè, quella che, passo dopo passo, sceglie sempre il token più probabile) riduce drasticamente i costi computazionali. Questa prima sezione mette in luce l’urgenza di un approccio più agevole per quantificare le incertezze nella generazione di testo. C’è una pressione sempre più forte per coniugare accuratezza, trasparenza e velocità operativa, soprattutto quando i modelli scalano e l’interesse del mercato e della ricerca si sposta su compiti complessi come la risposta a domande, la stesura di sintesi specialistiche o l’elaborazione di documenti. G-NLL: una nuova metrica per la stima dell’incertezza Il cuore della ricerca è la definizione di G-NLL , acronimo che indica la Negative Log-Likelihood della sequenza più probabile generata da un modello linguistico. Tale metrica deriva dall’idea di sostituire la tradizionale log-likelihood con un’altra funzione di punteggio, la cosiddetta zero-one score , che valorizza la predizione più plausibile e riduce il peso delle alternative meno verosimili. Quando si parla di zero-one score, si intende una misura che vale 1 se l’output coincide con quello più probabile e 0 per il meno probabile. Applicata al mondo dei modelli linguistici, tale logica si trasforma in un controllo sul token considerato “migliore” a ogni passo. Gli autori ricorrono a una formula esplicita per spiegare G-NLL. Se per un’uscita composta da T token la generazione segue un percorso a decodifica greedily, allora la metrica è: G-NLL = - sum_{t=1}^T [ log( max_{y_t} p(y_t | x, y_<t, w) ) ] dove p(y_t | x, y_<t, w) rappresenta la probabilità del token y_t dato l’input x e i token precedenti y_<t, secondo il modello con parametri w. Questa formula cattura in modo diretto quanto il modello propenda per la sequenza generata token dopo token. Se il prodotto di queste probabilità risulta alto, la G-NLL sarà bassa, a testimonianza di una sicurezza elevata; viceversa, una G-NLL alta suggerisce che il modello fatichi a mantenere costante la fiducia nelle proprie scelte di generazione. La motivazione teorica poggia sulla differenza tra la famiglia di punteggi detti “logaritmici”, alla base di misure come la Predictive Entropy e la Semantic Entropy , e la famiglia basata sulla zero-one score. Nel primo caso, si considera l’intera distribuzione delle possibili frasi (o l’intero insieme di cluster semantici), nel secondo ci si focalizza sul picco di probabilità corrispondente all’uscita più probabile. Emerge che, se la vera distribuzione dei testi fosse conoscibile e maneggiabile con semplicità, le stime di entropia basate su molteplici campioni potrebbero fornire informazioni più complete. Tuttavia, con i modelli di dimensioni crescenti, diventa arduo (se non impossibile) esplorare lo spazio dei possibili output. Da qui l’interesse verso G-NLL: stimando l’incertezza a partire da un’unica sequenza greedily decodificata, si abbattono i costi di generazione multipla e si ha un metodo coerente con il quadro matematico delle scoring rules. Il documento mostra, inoltre, che la stima dell’intera distribuzione via campionamento di svariati output produce spesso varianze alte e non offre sempre garanzia di trovare la sequenza più probabile. Al contrario, la decodifica greedy ha probabilità di individuare la massima verosimiglianza con un’unica passata, supportando la sostenibilità del processo di stima su larga scala. Questo filone di ricerca si inserisce nella più ampia esplorazione dei metodi che cercano di catturare l’ aleatoric uncertainty (dovuta alla natura stocastica del modello) e l’ epistemic uncertainty (dovuta all’ignoranza sui parametri reali e alla limitatezza dei dati). G-NLL si concentra in prima battuta sull’aleatoric uncertainty della singola sequenza scelta, riflettendo quanto il modello si ritenga certo di quell’output a ogni passo di decodifica. Stima dell’incertezza: G-NLL contro le metriche tradizionali La parte empirica del lavoro confronta G-NLL con le metriche consolidate nel campo, in particolare la Predictive Entropy (PE), la Semantic Entropy (SE) e alcune loro varianti normalizzate per la lunghezza o discrete (LN-PE, LN-SE, D-SE). A differenza di G-NLL, tali misure richiedono un campionamento multiplo di possibili output. Gli autori hanno sperimentato su tre dataset: TriviaQA , con oltre 3000 domande di tipo nozionistico, SVAMP , con poco più di 300 esercizi di aritmetica elementare, e NQ-Open , con più di 3600 interrogativi raccolti dal motore di ricerca Google. Si sono valutati due tipi di generazione: una short , più sintetica e focalizzata sulla risposta diretta, e una long , in cui si chiedeva al modello di produrre frasi più discorsive. Inoltre, sono stati considerati diversi modelli sia per architettura (transformer e state-space) sia per dimensioni (7, 8 e 70 miliardi di parametri). Alcuni erano semplici versioni pre-addestrate (PT), altri erano ulteriormente istruiti con meccanismi di instruction-tuning (IT). Lo scopo era verificare se la misura dell’incertezza mantenesse prestazioni consistenti su scenari e reti diverse. Il criterio di correttezza della risposta è stato misurato in due modi: usando la metrica SQuAD F1 su soglia 0,5 per i testi brevi, oppure facendo valutare la risposta a un modello LLM-as-a-judge con 70 miliardi di parametri, per coprire anche le generazioni lunghe. In sostanza, si etichettava una risposta come corretta se superava la soglia di similarità con la soluzione canonica, oppure se veniva ritenuta coerente da un modello di grandi dimensioni. I risultati mostrano che G-NLL registra valori di AUROC (Area Under the Receiver Operating Characteristic) competitivi o superiori rispetto alle altre misure, con differenze più nette soprattutto quando il modello generava frasi brevi. Ad esempio, in alcuni test su modelli di 7 o 8 miliardi di parametri in assetto pre-addestrato, G-NLL toccava punte di 0,82–0,84, mentre le entropie log-likelihood, anche se supportate da 10 campioni di output, si fermavano attorno a 0,77–0,80. L’interpretazione addotta è che, in contesti di risposta secca, la sequenza più probabile cattura già la capacità del modello di essere sicuro di ciò che produce, rendendo superfluo il calcolo di molte varianti del medesimo testo. Un ulteriore esperimento su dati sintetici, con vocabolari ridotti e sequenze brevi, ha confermato la facilità con cui la decodifica greedy trova la sequenza a massima probabilità. Il campionamento casuale a temperatura variabile mostrava una varianza più alta con pochi campioni, mentre la decodifica greedily o con beam search ridotta otteneva stime molto stabili della probabilità massima di sequenza. L’analisi finale suggerisce che, se l’obiettivo è solamente capire quanto il modello “creda” nella frase generata, la generazione di un’unica sequenza greedy può essere sufficiente. Sebbene G-NLL non integri la riflessione semantica insita in metriche come la Semantic Entropy, i dati empirici mostrano come l’inferenza semantica aggiunga costi e complessità. In un contesto aziendale o produttivo, ridurre la latenza di risposta può risultare decisivo. Pertanto, l’adozione di una misura immediata come G-NLL, che si basa su un’unica passata, acquisisce un significato strategico in molte applicazioni reali. Stima dell’incertezza nei modelli linguistici: benefici per le aziende La ricerca mette in risalto un vantaggio fondamentale: la semplicità . Invece di dover generare 10 o più sequenze e di doverle poi confrontare semanticamente, G-NLL si limita a valutare la log-likelihood della sequenza migliore. Un aspetto cruciale per un’impresa che voglia integrare LLM nei propri processi è la gestione del tempo di esecuzione e dei costi computazionali associati. La generazione di molteplici varianti di output raddoppia o triplica i tempi di risposta, e la successiva analisi del contenuto per verificare differenze semantiche aumenta ulteriormente il carico. Con G-NLL, la costruzione della risposta coincide con la stima dell’incertezza. Il sistema produce il testo più probabile con la decodifica greedily, calcola la probabilità token per token e restituisce un singolo valore di negative log-likelihood che quantifica la fiducia. In scenari di lead generation B2B , ad esempio, potrebbe essere rilevante ottenere risposte rapide a domande su prodotti o servizi. Avere uno strumento che fornisca anche un indicatore di quanto il testo generato sia potenzialmente inaffidabile permetterebbe di stabilire una soglia oltre la quale intervenire manualmente. La semplicità si accompagna a un solido inquadramento teorico, poiché G-NLL deriva dalle proper scoring rules , in particolare dalla sostituzione del log-score con la zero-one score. Ciò assicura che la misura rispetti le buone proprietà statistiche che si richiedono quando si valuta la coerenza di un modello probabilistico. Non si tratta quindi di un semplice “trucco” euristico, bensì di un metodo ancorato a principi rigorosi. Questo punto è prezioso per i manager che vogliano giustificare l’introduzione di LLM a stakeholder e investitori, garantendo che la valutazione dell’incertezza non sia un accessorio improvvisato, ma una funzionalità accuratamente congegnata. I risultati ottenuti con i grandi modelli esaminati suggeriscono che G-NLL potrebbe fungere da nuovo baseline per le ricerche future in stima dell’incertezza. Ciò non toglie che esistano ambiti di miglioramento. Il lavoro evidenzia come la singola sequenza ignori la questione della diversità semantica . Se l’impresa si trovasse a dover generare lunghi documenti, potrebbe essere opportuno integrare la dimensione semantica, soprattutto quando la forma espositiva e l’articolazione retorica contano quanto la singola risposta in sé. Tuttavia, se l’obiettivo primario è validare la bontà di una generazione breve e diretta, G-NLL sembra rispondere con un’efficacia non comune, trattandosi oltretutto di un calcolo immediato. Un esempio operativo per capire l’utilità di G-NLL è la gestione automatica di FAQ. Se il sistema genera una risposta breve per ogni domanda, il valore di G-NLL indica il livello di fiducia del modello in quella risposta. Impostando una soglia, si possono selezionare automaticamente quali risposte richiedono una revisione manuale prima di essere pubblicate. In questo modo, se G-NLL è molto alto (e quindi la confidenza del modello è bassa), la risposta viene riconsiderata da un operatore umano, riducendo gli errori e tutelando l’immagine dell’azienda. Stima dell’incertezza: prospettive future e sviluppi La parte finale della ricerca sottolinea alcune possibili evoluzioni. Anzitutto, si nota come G-NLL non differenzi tra frasi corrette e frasi semanticamente fuorvianti ma formalmente coerenti: resta una stima di quanto il modello ritenga plausibile il proprio output. In futuro, sarebbe interessante studiare versioni della metrica che considerino anche l’aspetto semantico, mantenendo però la snellezza dell’approccio a singola sequenza. Un modello di grandi dimensioni che generi testi lunghi o molto complessi può trarre giovamento da un ibrido in cui si affianchi la valutazione in tempo reale dell’incertezza alla verifica di contenuto, con un costo computazionale aggiuntivo solo quando la G-NLL rivela un picco di potenziale imprecisione. La ricerca sottolinea inoltre l’importanza di trattare la normalizzazione per la lunghezza , un aspetto già esplorato da altre metriche come LN-PE, LN-SE e la D-SE che discretizza i possibili cluster di significato. L’obiettivo è garantire che la misura dell’incertezza non risulti sbilanciata da sequenze molto lunghe o molto brevi. Ciò potrebbe essere cruciale in applicazioni come la stesura di sintesi di documenti, dove la lunghezza delle uscite varia notevolmente. Tuttavia, i risultati empirici mostrano che, nonostante le normalizzazioni, le misure entropiche continuano a richiedere generazioni multiple, rimanendo costose in ambienti operativi. Vi sono implicazioni strategiche. Molte aziende si affidano ai LLM per generare testi in modo scalabile, dal customer care alla produzione di contenuti per siti web. La possibilità di integrare un indice di affidabilità leggero in qualsiasi flusso di lavoro, senza raddoppiare i costi di calcolo, alimenta la confidenza degli investitori e dei partner. La valutazione dell’incertezza, se ben implementata, può fungere da sistema di allerta e ridurre i rischi di output problematici. In parallelo, si costruisce un quadro più chiaro delle lacune del modello e della necessità di aggiornare i dati di addestramento. La ricerca suggerisce che il dibattito futuro non riguarderà solo la precisione generativa, ma anche la qualità della stima di incertezza, come strumento di analisi e di mitigazione di errori. Ci sono già linee di lavoro che coinvolgono la conformal prediction , o l’impiego di modelli esterni di analisi incrociata. G-NLL si propone come tassello importante di questo panorama, grazie all’equilibrio tra semplicità applicativa e radicamento nelle teorie formali di scoring. Il tutto senza dover ricorrere a ingombranti passaggi di generazione multipla. Conclusioni Il lavoro “Rethinking Uncertainty Estimation in Natural Language Generation” solleva una questione cruciale per chi adotta grandi modelli di linguaggio in contesti reali: l’incertezza che accompagna ogni generazione testuale non è soltanto un limite tecnologico, ma anche un fattore di rischio e responsabilità per chi deve tramutare la potenza dei LLM in un vantaggio competitivo. La proposta di G-NLL segna un passo avanti interessante nella stima dell’incertezza nella generazione di testo , poiché punta a contenere i costi computazionali, lasciando libere le risorse per attività a più alto valore aggiunto. Un aspetto che merita particolare attenzione per imprenditori e manager è come G-NLL possa diventare un indicatore concreto della fiducia che il modello ha nei propri output, specialmente nelle fasi di deployment su larga scala. Invece di moltiplicare il numero di generazioni, e di conseguenza i tempi di risposta e i consumi di calcolo, la metrica sfrutta una singola sequenza greedily decodificata. Questo consente di ridurre la latenza e stabilire processi decisionali più rapidi, che possano abbracciare modelli linguistici con dimensioni sempre maggiori senza compromettere la solidità delle analisi. Peraltro, l’approccio G-NLL non è privo di limiti: la ricchezza semantica di alcune applicazioni potrebbe richiedere il confronto fra più varianti di testo. Una strategia ibrida, in cui si interviene con controlli semantici approfonditi soltanto quando G-NLL segnala bassa confidenza, potrebbe offrire un buon compromesso tra precisione e pragmatismo. In altri termini, l’impresa potrebbe applicare G-NLL come soglia di allerta, decidendo di destinare ulteriori risorse di verifica solo dove il modello si mostra particolarmente incerto. Questa prospettiva valorizza l’analisi di costi e benefici per l’adozione di grandi modelli di linguaggio nei flussi operativi quotidiani: con G-NLL si possono prevedere procedure di validazione calibrate sul livello di rischio, distribuendo in modo intelligente le risorse umane e computazionali. In definitiva, l’uso di una metrica agile per stimare l’incertezza rappresenta un’opportunità per rafforzare la fiducia negli LLM, massimizzare la produttività e mantenere un controllo strategico sulle performance dei sistemi di generazione testuale. Podcast: https://creators.spotify.com/pod/show/andrea-viliotti/episodes/Stima-dellincertezza-nella-generazione-di-testo-una-nuova-metrica-per-i-modelli-linguistici-LLM-e2sqt8r Fonte: https://arxiv.org/abs/2412.15176
Human-Machine Synergy: Insights from 'The Year in Tech 2025' on Technology and Business
“The Year in Tech 2025,” published by Harvard Business Review Press, offers a perspective on how the integration of artificial intelligence, robotics, biometrics, and other innovations is shaping the world of work and business. The central theme of the research is the growing human-machine synergy : a landscape in which AI supports decision-making, robotics automates repetitive tasks, and biometrics optimizes services, while companies and institutions seek sustainable and responsible ways to connect talent, markets, and ideas on a global scale. Human-Machine Synergy: Insights from 'The Year in Tech 2025' on Technology and Business Human-Machine Synergy: Transforming Business Mindsets in 2025 The pages of “The Year in Tech 2025” emphasize a working reality in which the human-machine synergy and the use of digital technologies go well beyond the simple optimization of certain functions. They herald a collaboration between people and machines based on increasingly seamless natural language. Companies no longer see automation merely as a lever for efficiency but as an opportunity to rethink goals, skills, and work methodologies. Traditional production settings are now joined by environments in which AI software processes large volumes of information and robots handle operational tasks, while humans still wield the final judgment, provide empathy in services, make ethical evaluations, and drive creative innovation. The underlying idea is that human-machine synergy does not mean offloading part of the decision-making responsibility but rather broadening analytical potential to solve more complex problems. This fosters human-machine synergy as a space of “co-creation” between human and artificial intelligence, where data are not merely inputs to be processed but strategic resources for understanding contexts, predicting scenarios, customizing products, and improving people’s quality of life. This evolutionary step encourages companies to invest in data governance, in safeguarding sensitive information, and in defining new cross-functional competencies. With the advent of generative AI models like ChatGPT, and the rise of more advanced voice and text interfaces, the ability to interact with technology becomes a key factor in achieving tangible results—for instance, in analyzing legal documents or performing real-time consumer segmentation. At the same time, it requires an organizational culture open to experimentation and a constant watch on potential biases that an algorithm may introduce. This implies moving beyond the idea that it is enough to install software or delegate a process to the cloud: companies need procedures to verify the correctness of AI outputs, define who controls data quality, how to handle anomalies or errors, and how to protect privacy and the rights of individuals interacting with the system. “The Year in Tech 2025” thus notes growing trust in technology, even as concerns persist regarding proper oversight and accountability. The text includes instances of professionals being assisted by AI in drafting contracts, reducing both analysis time and repetitive workload, but it also shows how the added value of specialists remains indispensable for more complex interpretations or for reconciling regulatory specifics. In other words, human-machine synergy does not aim to replace people but rather to foster a new managerial mindset where human competencies and the analytical power of technology align to open up previously unexplored paths. This is a shift in mentality: to stop seeing data merely as numerical records and start considering them as “cognitive capital,” contributed by various stakeholders (including customers and employees) in a mechanism of co-creation and continuous learning. All of this changes the very definition of collaboration among departments. Where once the IT function was relegated to maintenance tasks, it is now turning into a competence center that merges with marketing, human resources, and production. Digital platforms form the backbone that underpins communication and knowledge sharing, while managers are tasked with orchestrating physical, digital, and human resources in a consistent manner. This transformation requires time, investments, and broad commitment in reevaluating roles and responsibilities: from the department head deciding how to integrate a robot into the assembly line to the analyst learning to use advanced AI tools for identifying market opportunities. In this scenario, decisions are no longer based solely on intuition or past experience but instead on continuous dialogue with data, on virtual testing and simulations, and on rapid prototyping. The shift toward a “digital mindset” reinforces human-machine synergy without disregarding established expertise, recognizing that today’s market complexity demands more adaptive models and deeper cross-pollination between human and technological dimensions. Internal training is also undergoing a radical transformation. According to the analyses presented in the document, many businesses are implementing “digital academy” programs to build specific skills in data usage, machine learning algorithms, virtual collaboration tools, and design thinking methodologies. These pathways facilitate the creation of a common language across departments, preventing digital innovation from being confined to only a few advanced areas, and they promote a habit of continuous learning, essential for staying competitive. Hence, the principle of collaboration between humans and technology spans the entire organization: products are developed with the support of generative AI; market scenarios are analyzed through computer simulations; lead generation strategies are defined based on predictive algorithms; and at the same time, relationships with customers and teams’ creative abilities are strengthened. Moreover, cutting-edge companies do not view innovation as an isolated element but rather as an integral aspect of their corporate culture, in which the potential of digital technology blends seamlessly with core values and strategic objectives. Robots and Biometrics: Human-Machine Synergy in Modern Services A substantial section of “The Year in Tech 2025” delves into the growing adoption of robots in customer service and the use of biometric technologies as a key tool for optimizing customer interactions. Analysis of various cases—from hotel chains employing robot receptionists to airlines testing facial recognition for check-in—shows how technology can cut costs and improve the experience, so long as it preserves trust. The document highlights that in China, for instance, the market for service robots has seen significant growth, thanks in part to the ease with which repetitive or hazardous tasks can be handled by machines. However, one critical point concerns how these robots are perceived: if they are too anthropomorphic, they risk eliciting discomfort; if they are too distant and cold, they fail to produce that effect of empathy and attentiveness toward the customer that remains essential for a positive customer experience. Companies are called upon to calibrate the level of automation, maintaining human involvement where relationships, listening, or personalization require specific sensitivities. The same holds true for biometrics: recognizing a customer by face, fingerprint, or voice makes access to services smoother and speeds up payments and security procedures, yet it raises questions about privacy and data security. “The Year in Tech 2025” also notes that in several Western countries, data protection regulations mandate cautious use of these techniques, requiring robust encryption measures and audit protocols. On one hand, biometrics can boost security; on the other, the theft of biometric data is particularly sensitive, as such data cannot be reset or changed like a password. Hence, a responsible approach is vital: it’s not enough to chase the latest innovation; it’s necessary to design risk management plans, establish contingency procedures, and adopt transparent policies on data processing. Strategically, biometrics application extends beyond hotel check-in or smartphone security. New scenarios include personalized healthcare, with biometric readers constantly monitoring vital parameters and transmitting them in real time to an AI-driven diagnostic platform, or the use of facial recognition to tailor the retail experience by suggesting products based on a customer’s detected facial expressions. Yet these forms of hyper-personalization can feel intrusive if customers are not properly informed or have not given explicit consent. Customer perception can shift quickly when technology is seen as an invasive “big brother” rather than a convenient aid. That is why companies adopting robotics and biometrics should prioritize transparent protocols and user education, explaining how data are collected, stored, and used, and clarifying the benefits in terms of speed, security, and service quality. “The Year in Tech 2025” also provides significant figures: in the United States, online fraud attempts rose by more than 20% in the past year, and biometrics has proven effective in reducing such activity. In banking and finance, many institutions have already introduced mobile banking apps based on facial or voice recognition, which have reduced account breaches and fraudulent misuse of credentials. Nonetheless, public trust must be nurtured: a failed recognition or a false positive can inconvenience users, undermining their willingness to use biometric services. Although accuracy rates in some advanced facial recognition systems exceed 99%, exceptions can still occur, and unexpected conditions may need to be managed. Some hotels have found that if facial recognition software does not identify a guest in low-light conditions, the resulting experience can be worse than the traditional approach, generating dissatisfaction and complaints. The presence of robots in service roles, meanwhile, raises questions about the impact on human workers. The use of self-service kiosks or humanoid machines to deliver packages and food reduces the need for certain duties but creates a need for new training related to system maintenance and management. In “The Year in Tech 2025,” organizations are cited where human employees act as “technology ambassadors,” explaining to customers how to interact with robots or biometric systems and intervening in cases of malfunction or specific assistance requests. This highlights the fact that efficiency and cost reduction are not the sole metrics for success. Perceived quality, social acceptance, and the sense of comfort experienced by customers are also critical, making the introduction of robots and biometrics a progressive, dynamic process. We are moving toward a closer proximity between humans and machines, which must remain balanced—free from extremes of “hyper-technologization” and respectful of human values—or risk failure and the loss of customer loyalty. The stakes are high: being able to use advanced solutions to stand out by offering fast, personalized service without invading private spaces or completely replacing the relational component intrinsic to high-contact services. Generative AI: Advancing Human-Machine Synergy in the Workplace Generative AI solutions are redefining the concept of cognitive productivity. Applications that seemed unthinkable just a few years ago are now considered viable—for instance, real-time drafting of legal contracts, analysis of medical images to suggest diagnoses, or the production of personalized text and multimedia content for each consumer. All of this affects how organizations are structured and how professional roles are shaped. On one hand, tasks once thought primarily logical or creative can now be progressively automated; on the other, there is a growing need for expertise in designing, validating, and maintaining AI systems. Generative AI does not merely replicate existing patterns; its algorithms can generate new combinations, producing outputs that mimic human inventiveness. In finance, for example, some banks have begun experimenting with generative AI to deliver personalized investment advisory reports based on a client’s risk profile and stated goals, trimming report writing times from days to hours. In education, platforms powered by generative AI create study plans aligned with each student’s learning style, suggesting targeted exercises. But as these technologies reach new heights, questions of responsibility and quality control arise: a machine-generated output that is not properly vetted could contain errors or distortions, with potentially serious consequences if applied to sensitive fields like healthcare or legal consulting. Hence the need for validation protocols, for human experts to review results, and for accountability mechanisms in the event of major mistakes. “The Year in Tech 2025” also highlights how generative AI is transforming training and continuous learning. It’s no longer just about acquiring technical skills in using algorithms; it’s about learning how to pose the right questions, interpret and refine generated results, and recognize any biases. One example in the text describes an advanced call center where new hires can quickly get up to speed thanks to a generative AI system that provides real-time suggestions during customer calls and then offers detailed feedback reports on how to improve. In this way, even those with limited experience can achieve good performance levels in a short timeframe. Speeding up the learning cycle becomes a competitive advantage, but it also demands cultural change: workers are prompted to experiment and to continuously adapt their approach, while managers must encourage productive trial and error and provide resources and space for ongoing training. Strategically, generative AI paves the way for new business models where mass personalization or large-scale product variants become economically viable. Imagine a cosmetics brand generating customized packaging ideas for different customer segments, or an automaker producing design previews based on individual buyers’ preferences. Such possibilities, described in the research, offer a glimpse of how companies can push beyond conventional productivity limits. Yet to truly leverage these capabilities, organizations need to reexamine operational workflows and assemble teams of professionals adept at communicating effectively with AI. In some cases, the new role of “prompt engineer” emerges, focusing on formulating the optimal instructions for the generative system to produce consistent, high-quality results. Meanwhile, labor unions raise concerns and ethical questions about whether intellectual tasks risk being reduced to mere oversight or polishing of machine-produced content. At this juncture, leadership must explain that AI does not diminish the human element of work but rather expands its scope, freeing up time for higher-value activities. Naturally, challenges regarding intellectual property persist. If a generative AI uses third-party data or content to learn, who owns the copyright for the final output? And how should liability be established in the event of plagiarism? “The Year in Tech 2025” suggests many of these questions remain open and that in the coming years, businesses, governments, and international organizations will need to converge on clearer guidelines. Meanwhile, a practical approach is recommended: establish internal protocols, train employees in compliance issues, and continuously track legal and technological developments to preempt potential risks. Generative AI offers extraordinary possibilities for broadening cognitive capabilities, but to avoid negative repercussions, a human presence must remain in the creation process and final decisions, along with vigilance regarding data diversity in model training so as to prevent discriminatory effects. System Synergy: China’s Electric Vehicle Ecosystem One chapter of the document is dedicated to analyzing the electric vehicle (EV) market in China, highlighting how the country has managed to secure nearly 60% of global electric car sales, according to cited data. This achievement stems from a long-term strategy involving government incentives, testing in related sectors (from electric buses to motorcycles), partnerships with tech companies, and substantial investments in charging infrastructure. The publication points out that more than half of the world’s electric vehicles are in China, and some companies, such as BYD, have outpaced Tesla’s numbers in the fourth quarter of 2023. It’s not just a matter of low-cost manufacturing but also of vertical integration and a focus on the battery supply chain, considered the true technological core of EV. Chinese companies control a significant share of rare earth element extraction and key component production, ensuring a smoother supply chain. This example underlines the importance of creating an integrated ecosystem in which complementary expertise develops in surrounding areas and then converges in mass production. The document cites how BYD and Geely began with electric buses and motorcycles, gradually learning how to design and manufacture increasingly efficient batteries. Eventually, they transferred these capabilities to commercial and consumer vehicle production. Concurrently, partnering with tech players like Baidu sped up the development of assisted driving software and cloud services for on-board data management. The Chinese success story is also built on regulations and subsidies that initially helped consumers purchase electric vehicles, creating a robust domestic market and initiating a virtuous cycle of economies of scale. Once the internal market reached critical mass, Chinese companies were ready to tackle international markets, offering competitive products, including in terms of price. Globally, “The Year in Tech 2025” compares China’s approach with that of other countries. In the United States, EV adoption has grown, but fragmented charging infrastructure and the lack of a unified federal strategy slow its progress. In Europe, ambitious environmental regulations are spurring a shift to electric mobility, yet the market remains uneven between countries with advanced infrastructure and others lagging behind. The document underscores the necessity of viewing transport electrification as a systemic phenomenon: installing charging stations, maintaining grid stability, assessing the environmental and social impact of raw material extraction, ensuring adequate after-sales services, and creating battery recycling and disposal policies. Transitioning to electric vehicles is therefore a complex path, and China’s leadership showcases the significance of a long-term vision and synergy between industry, government, and academic institutions. The text also addresses environmental responsibility. While it’s true that electric cars have zero tailpipe CO₂ emissions, the production of batteries and generation of electricity can carry a large carbon footprint, particularly if electricity still comes primarily from fossil fuels. To maximize the benefits, the document advises adopting a holistic approach: invest in renewable energy sources, promote research into more sustainable battery materials, reduce vehicle weight to lower energy consumption, and construct a robust used-car market that extends vehicles’ lifespan. In China, strategies like battery swapping have emerged, with automated stations replacing depleted batteries in a matter of minutes, thus reducing downtime and opening a market for shared batteries. According to “The Year in Tech 2025,” such innovations show that EVs are not just standalone products but part of a broader ecosystem of interlinked solutions involving the energy, digital, and manufacturing sectors. There is also a geoeconomic aspect to consider: China’s dominance in parts of the EV value chain may create dependencies for Western companies, much like the situation in the semiconductor industry. Geopolitical tensions could push governments to localize battery and critical material production, affecting EV costs and adoption timelines. However, “The Year in Tech 2025” reinforces the notion that the drive toward electrification, digital technology integration, and the creation of smart-service ecosystems is now irreversible. Companies wishing to join this transformation must prepare for cross-sector collaborations, research investments, and flexible market strategies. China’s example demonstrates that accumulating expertise, partnering with key players, and adopting a systemic vision are significant competitive advantages. To compete globally, businesses cannot ignore these lessons and must gear up for ever more data-driven, software-based, and cross-industry competition. Governance in Human-Machine Synergy: Balancing Innovation and Responsibility A final aspect that “The Year in Tech 2025” addresses in depth is the dilemma between ensuring innovation freedom for businesses and protecting the common good, a concern growing more pressing with the development of increasingly powerful technology platforms. The example of OpenAI and the recent debates on generative AI highlight how traditional governance models are under strain. If conventional boards of directors tend to prioritize shareholder interests, how can we manage the systemic risks posed by AI that might make decisions outside human control or manipulate information on a large scale? These challenges are not purely theoretical: consider the antitrust controversies involving Amazon, accused of price manipulation and of favoring its own products over those of third-party sellers, or the case of major tech firms controlling such a vast quantity of data that they threaten free competition. The document suggests that businesses committed to social responsibility and sustainability should move beyond a strictly profit-focused governance model and experiment with more nuanced frameworks, such as public benefit corporations or boards with independent members who specialize in ethics and social impact. The idea of tying corporate behavior to a mission broader than immediate profit is gaining traction, especially in sectors where AI could have a significant effect on employment or privacy. However, cultural inertia and competitive pressure can complicate this shift. The real challenge is reconciling investors’ and managers’ urge to extract value from new technologies with the awareness that unmonitored innovation could lead to unforeseen consequences or reputational damage. Legislatively, “The Year in Tech 2025” mentions initiatives by various authorities—like the European Commission’s AI Regulation and updates to data protection laws—to define standards and assign responsibility regarding algorithms. Yet technology evolves so fast that legislatures often struggle to keep pace. This underscores the need for specialized oversight bodies and a culture of compliance from the earliest stages of digital product design. For instance, a company developing an automated e-commerce platform must consider not only user experience and profitability metrics but also potential risks of price manipulation, exclusion of certain suppliers, or algorithmic discrimination against vulnerable consumers. Proactive governance means scheduling regular algorithm audits, keeping a human in the loop for critical decisions, and clearly communicating the system’s policies and objectives. The document also cites ongoing debates in the United States about applying antitrust laws to major platforms like Amazon. Some argue that curbing these giants’ market power would foster innovation and competition, while others worry that stringent measures might hamper technological development. The likely scenario, as described, is a system of “behavioral compliance” where these businesses face increasing constraints on data usage and self-preferencing but are not broken up. This approach seeks to preserve the scale benefits and user-friendly features offered by the platforms while restricting the most blatant abuses. The core issue is balancing collective interest with entrepreneurial drive: society expects companies not to act irresponsibly, while managers still have a duty to fulfill shareholders’ expectations. Governance is thus pivotal, tied to the caliber of management and its ability to leverage digital opportunities without losing sight of long-term effects on employment, the environment, and the social fabric. Conclusions A collective reading of the various themes in “The Year in Tech 2025”—from using robots for service automation to employing biometrics for secure and personalized customer experiences, from generative AI as a factor of cognitive growth to China’s race in electric vehicles and governance challenges—reveals a clear trajectory: digital technologies have evolved from mere tools for efficiency and cost reduction to full-fledged strategic partners that can help imagine new business models and redefine markets. The implications for companies are manifold. It will be essential to invest in internal culture and training, overhaul processes and roles in light of AI and robotics capabilities, reconfigure the value chain through partnerships with suppliers and other stakeholders, and above all, responsibly manage the immense power that comes from controlling data and algorithms. The findings to date paint a fluid picture, where competition no longer revolves solely around products but around the network of competencies and relationships each company is able to mobilize. Looking at other similar technologies—such as advanced analytics or the internet of things—reinforces the idea that the ability to integrate platforms, data, diverse stakeholders, and evolving regulations is the linchpin of long-term value creation. A company adopting generative AI must contend with practical implementation, organizational acceptance, and possible reputational risks—requiring strategic vision, flexibility, and a willingness to experiment. Lastly, reflections on societal and corporate impact advise caution against excessive enthusiasm: technological progress should be approached with a critical mindset, carefully evaluating its benefits, limitations, and consequences. Threats like market power concentration, loss of control over sensitive data, or rash replacement of human expertise come into view. Yet there are also opportunities for economic growth, new professions, broader service access, and sustainable solutions. The challenge for executives and entrepreneurs is to envision a scenario in which humanity and technology work together and strengthen one another, respecting ethical values and shared norms. In this framework, the stakes are high for the overall evolution of the corporate model, which must be geared not just toward immediate profit but toward an equilibrium of progress and responsibility, global markets and social needs, competitiveness and the well-being of future generations. It’s a journey that calls for vision, leadership, and continual strategy and skill refinement to navigate a future still partly uncharted. Podcast : https://creators.spotify.com/pod/show/andrea-viliotti/episodes/Human-Machine-Synergy-Insights-from-The-Year-in-Tech-2025-on-Technology-and-Business-e2sqo6o Source: https://store.hbr.org/product/the-year-in-tech-2025-the-insights-you-need-from-harvard-business-review/10741
Sinergia Uomo-Macchina: le prospettive tecnologiche di “The Year in Tech 2025”
“The Year in Tech 2025” di Harvard Business Review Press propone una visione su come l’integrazione di intelligenza artificiale, robotica, biometria e altre innovazioni stia plasmando il mondo del lavoro e dell’impresa. Il tema generale della ricerca è la crescente fusione tra esseri umani e macchine : un panorama in cui l’AI supporta le decisioni, la robotica automatizza compiti ripetitivi e la biometria ottimizza i servizi, mentre aziende e istituzioni cercano modalità sostenibili e responsabili per connettere talenti, mercati e idee su scala globale. Sinergia Uomo-Macchina: le prospettive tecnologiche di “The Year in Tech 2025” Sinergia Uomo-Macchina: come cambia la mentalità nel business moderno Le pagine di “The Year in Tech 2025” insistono sul concetto di una realtà lavorativa in cui la sinergia uomo-macchina e l’impiego di tecnologie digitali non si limita più alla semplice ottimizzazione di alcune funzioni, ma conduce verso una collaborazione tra persone e macchine basata su un linguaggio naturale sempre più fluido. Le imprese non vedono l’automazione soltanto come leva di efficienza ma come opportunità per ripensare obiettivi, competenze e metodologie di lavoro. Ai tradizionali ambienti di produzione si affiancano contesti in cui un software di intelligenza artificiale elabora grandi volumi di informazioni e un robot realizza compiti operativi, mentre l’essere umano conserva il presidio del giudizio finale, dell’empatia nei servizi, della valutazione etica e dell’innovazione creativa. L’idea di fondo è che lavorare accanto a un algoritmo non significhi scaricare una parte della responsabilità decisionale, ma piuttosto ampliare le potenzialità di analisi per risolvere problemi più complessi. Si crea così uno spazio di “cocreazione” tra l’intelligenza umana e quella artificiale, dove i dati non rappresentano soltanto input da processare, ma risorse strategiche per comprendere il contesto, prevedere scenari, personalizzare prodotti e migliorare la qualità di vita delle persone. Questo passaggio evolutivo incoraggia le imprese a investire in data governance, nella tutela di dati sensibili e nella definizione di nuove competenze trasversali. Con l’avvento di modelli di AI generativa come ChatGPT o di interfacce vocali e testuali più evolute, la capacità di dialogare con la tecnologia diviene un fattore chiave per ottenere risultati tangibili, ad esempio nell’analisi di documenti legali o nella segmentazione dei consumatori in tempo reale. D’altro canto, richiede una cultura organizzativa aperta alla sperimentazione e un’attenzione costante ai possibili bias che un algoritmo può introdurre. Ciò comporta il superamento dell’idea che basti installare un software o delegare un processo al cloud: servono procedure per verificare la correttezza dei risultati prodotti dall’AI, definire chi controlla la qualità dei dati, come vanno gestite eventuali anomalie o errori e come si tutelano la privacy e i diritti di chi interagisce con il sistema. “The Year in Tech 2025” sottolinea dunque la crescita della fiducia verso la tecnologia, pur manifestando preoccupazioni per la corretta supervisione e l’accountability. Vengono menzionati casi in cui un AI affianca i professionisti nella stesura di contratti, riducendo i tempi di analisi e la mole di lavoro ripetitivo, ma al contempo si evidenzia come il valore aggiunto degli specialisti rimanga indispensabile per garantire interpretazioni più complesse o per conciliare specificità normative. La sinergia uomo-macchina, in altre parole, non punta a sostituire le persone ma a far emergere una nuova mentalità manageriale in cui la sinergia fra competenze umane e potenza analitica della tecnologia apre strade prima inesplorate. È un passaggio di mentalità: smettere di vedere i dati soltanto come record numerici e iniziare a considerarli come un “capitale cognitivo” a cui partecipano diversi attori, inclusi clienti e dipendenti, in un meccanismo di co-creazione e apprendimento continuo. Tutto ciò modifica la definizione stessa di collaborazione tra reparti. Se un tempo la funzione IT era relegata a compiti di manutenzione, ora diventa un centro di competenze che si ibrida con il marketing, le risorse umane e la produzione. Le piattaforme digitali rappresentano l’architrave su cui scorre la comunicazione e si condivide la conoscenza, mentre i manager hanno il compito di orchestrare risorse fisiche, digitali e umane in modo coerente. Questa trasformazione richiede tempo, investimenti e un impegno diffuso nel riconsiderare ruoli e responsabilità: dal capo reparto che decide come integrare un robot nella catena di montaggio fino all’analista che apprende a utilizzare strumenti avanzati di AI per identificare opportunità di mercato. In quest’ottica, le decisioni non si basano più soltanto su intuizioni o esperienze pregresse, ma su un continuo dialogo con i dati, su test e simulazioni virtuali e su prototipazioni rapide. Il passaggio a una “ mentalità digitale ” rafforza la sinergia uomo-macchina, senza tradire le conoscenze consolidate, ma prendendo atto che la complessità dei mercati odierni richiede modelli più adattivi e una più profonda contaminazione tra le dimensioni umane e quelle tecnologiche. Anche la formazione interna vive una profonda metamorfosi. Secondo le analisi contenute nel documento, molte imprese stanno adottando programmi di “digital academy”, in cui si formano competenze specifiche sull’uso di dati, algoritmi di machine learning, strumenti di collaborazione virtuale e metodologie di design thinking. Questi percorsi favoriscono la creazione di un linguaggio condiviso tra i reparti, evitando che l’innovazione digitale rimanga confinata a poche aree avanzate, e promuovono un’abitudine all’apprendimento continuo, indispensabile per mantenere la competitività. Il principio della collaborazione tra uomo e tecnologia, quindi, coinvolge l’intera organizzazione: si sviluppano prodotti grazie al supporto dell’intelligenza artificiale generativa, si analizzano scenari di mercato attraverso simulazioni al computer, si definiscono strategie di lead generation basate su algoritmi predittivi e, allo stesso tempo, si rafforzano le relazioni con i clienti e le capacità creative dei team. Le imprese più evolute, inoltre, non considerano l’innovazione come un elemento isolato, ma come un aspetto integrante della cultura aziendale, in cui il potenziale del digitale si integra armoniosamente con i valori e gli obiettivi strategici. Sinergia tecnologica nei servizi: robot, biometria ed efficienza Una sezione rilevante di “The Year in Tech 2025” esplora la crescente adozione di robot in ambito customer service e l’impiego di tecnologie di biometria come chiave per ottimizzare le interazioni con i clienti. L’osservazione di vari casi, dalle catene di hotel con receptionist robot alle compagnie aeree che sperimentano il check-in con riconoscimento facciale, evidenzia come la tecnologia possa ridurre costi e migliorare l’esperienza, a patto di preservare la fiducia. Il documento riporta che in Cina, per esempio, il mercato dei servizi robotici ha registrato un incremento significativo, grazie alla facilità con cui determinati compiti ripetitivi o rischiosi possono essere gestiti da macchine. Tuttavia, un punto critico riguarda la percezione di tali robot: se sono troppo antropomorfi, rischiano di suscitare inquietudine; se sono troppo distanti e freddi, non producono quell’effetto di empatia e attenzione al cliente che invece è essenziale nella customer experience. Le aziende sono chiamate a calibrare il livello di automazione, mantenendo un presidio umano dove la relazione, l’ascolto o la personalizzazione richiedono sensibilità specifiche. Lo stesso vale per la biometria: riconoscere un cliente dal volto, dall’impronta digitale o dalla voce rende più agevole l’accesso ai servizi, accelera pagamenti e procedure di sicurezza, ma solleva interrogativi sulla privacy e sulla sicurezza dei dati. “The Year in Tech 2025” segnala inoltre come in più Paesi occidentali le normative sulla protezione dei dati impongano un utilizzo cauto di queste tecniche, con la necessità di implementare robuste misure di crittografia e protocolli di audit. Se da un lato la biometria può aumentare la sicurezza, dall’altro il furto di dati biometrici risulta particolarmente delicato, poiché tali dati non sono ripristinabili o modificabili come una password. Emerge quindi l’esigenza di un approccio responsabile: non basta sfruttare l’attrattiva dell’innovazione, occorre definire piani di gestione del rischio, protocolli di emergenza e politiche di trasparenza sul trattamento dei dati. A livello strategico, l’applicazione della biometria non si limita al check-in in hotel o alla sicurezza di uno smartphone. Nuovi scenari includono la personalizzazione dell’assistenza medica, con lettori biometrici che monitorano costantemente i parametri vitali e li trasmettono in tempo reale a una piattaforma di AI diagnostica, oppure l’utilizzo di tecniche di riconoscimento facciale per calibrare l’esperienza di acquisto nel retail, suggerendo prodotti in base alle emozioni captate sul volto del cliente. Queste forme di iper-personalizzazione possono però risultare intrusive se il cliente non è adeguatamente informato e se manca un consenso esplicito. La percezione del cliente cambia rapidamente se la tecnologia viene vissuta come un invadente “grande fratello” piuttosto che un comodo supporto. Ecco perché le imprese che decidono di adottare robot e biometria devono puntare su protocolli trasparenti e sull’educazione dell’utente, spiegando come i dati vengono raccolti, conservati e utilizzati, e quali vantaggi ne derivano in termini di velocità, sicurezza e qualità del servizio. “The Year in Tech 2025” riporta anche numeri significativi: negli Stati Uniti, i tentativi di frode online sono cresciuti di oltre il 20% nell’ultimo anno, e la biometria risulta uno strumento efficace per abbattere tale fenomeno. In ambito bancario e finanziario, diverse istituzioni hanno già introdotto app di mobile banking basate sul riconoscimento facciale o vocale, con conseguente riduzione delle violazioni di account e delle truffe legate all’uso improprio di credenziali. Tuttavia, la fiducia del pubblico va coltivata: un errore di lettura o un falso positivo possono causare disagi all’utente, minandone la propensione a utilizzare i servizi biometrici. Il livello di accuratezza raggiunge valori molto alti (oltre il 99% in alcuni sistemi avanzati di riconoscimento del volto), ma resta la possibilità di eccezioni e l’evenienza di dover gestire situazioni impreviste. Alcuni hotel hanno scoperto che, se il software di riconoscimento facciale non riconosce il cliente in certe condizioni di luce scarsa, l’esperienza diventa peggiore di quella tradizionale, generando insoddisfazione e lamentele. La presenza dei robot nelle attività di servizio, in parallelo, solleva riflessioni sull’impatto sui lavoratori umani. L’uso di chioschi self-service o di macchine umanoidi che consegnano pacchi e cibo riduce la necessità di alcune mansioni, ma crea nuovi bisogni di formazione per la manutenzione e la gestione dei sistemi. In “The Year in Tech 2025” si menzionano realtà in cui i dipendenti umani assumono il ruolo di “ambasciatori tecnologici”, spiegando ai clienti come interagire con il robot o con il sistema biometrico, e intervenendo in caso di malfunzionamenti o richiesta di assistenza specifica. Questo ci ricorda che l’efficienza e la riduzione dei costi non possono essere gli unici parametri di valutazione: anche la percezione di qualità, l’accettazione sociale e il senso di comfort dei clienti entrano in gioco, rendendo l’implementazione di robot e biometria un percorso progressivo e dinamico. Si va verso una prossimità uomo-macchina che deve risultare equilibrata, priva di eccessi di “iper-tecnologizzazione” e rispettosa dei valori umani, pena il fallimento dell’iniziativa e la perdita di fidelizzazione. La posta in gioco per le aziende è alta: la capacità di usare soluzioni avanzate per differenziarsi, offrendo un servizio veloce e personalizzato, ma senza invadere la sfera privata o sostituire del tutto la componente relazionale tipica dei servizi a elevato contatto con la clientela. Generative AI e sinergia Uomo-Macchina: nuovi paradigmi di lavoro Le soluzioni di generative AI stanno ridefinendo il concetto di produttività cognitiva. Applicazioni che erano inimmaginabili qualche anno fa oggi vengono considerate possibili, come l’elaborazione di contratti legali in tempo reale, l’analisi di immagini mediche per suggerire diagnosi o la creazione di contenuti testuali e multimediali personalizzati per ciascun consumatore. Tutto ciò incide sulla struttura dei modelli organizzativi e sui profili professionali. Da un lato, si affaccia l’idea di una progressiva automazione di compiti logici e creativi, dall’altro emerge una crescente domanda di competenze volte a progettare, validare e mantenere i sistemi di intelligenza artificiale. La generative AI non si limita a replicare pattern esistenti: i suoi algoritmi sono in grado di creare combinazioni nuove, generando output che simulano l’inventiva umana. Nel mondo della finanza, ad esempio, alcune banche stanno sperimentando soluzioni di generative AI per produrre report personalizzati di consulenza sugli investimenti in base al profilo di rischio e agli obiettivi dichiarati dal cliente, riducendo i tempi di redazione da giorni a poche ore. Nel settore dell’istruzione, piattaforme che utilizzano modelli di generative AI progettano piani di studio tarati sullo stile di apprendimento di ciascun studente, suggerendo esercizi mirati. Tuttavia, spingendosi verso questi orizzonti emergono questioni di responsabilità e qualità: un output generato dalla macchina e non adeguatamente verificato potrebbe contenere informazioni errate o distorte, con effetti potenzialmente gravi se applicato in ambiti critici come la sanità o la consulenza giuridica. Da qui la necessità di introdurre regole di validazione, di coinvolgere figure umane con esperienza nella revisione dei risultati e di prevedere meccanismi di accountability in caso di errori macroscopici. “The Year in Tech 2025” sottolinea come la generative AI stia anche modificando il concetto di formazione e apprendimento continuo. Non si tratta soltanto di acquisire competenze tecniche nell’uso di algoritmi: è fondamentale imparare a formulare le domande giuste, a interpretare e rifinire i risultati generati, a riconoscere eventuali bias. Nell’esempio di un call center evoluto, citato nel testo, i neoassunti apprendono velocemente grazie al supporto di un sistema di AI generativa che fornisce suggerimenti in tempo reale durante la conversazione con il cliente e successivamente offre un report di feedback dettagliato su come migliorare la prossima volta. In questo modo, anche chi ha poca esperienza può raggiungere prestazioni di buon livello in tempi ridotti. L’accelerazione del ciclo di apprendimento diventa un fattore di vantaggio competitivo per le aziende, ma contemporaneamente impone un cambiamento culturale: il lavoratore è indotto a sperimentare e a adattare costantemente il proprio approccio, mentre i manager devono incoraggiare l’errore costruttivo e garantire risorse e spazi per la formazione continua. Da un punto di vista strategico, la generative AI abilita nuovi modelli di business, in cui la personalizzazione di massa o la creazione di varianti di prodotto diventano economicamente sostenibili. Pensiamo a un brand di cosmetici che genera proposte di packaging su misura per ciascun segmento di clientela, o a una casa automobilistica che produce anteprime di design basate sulle preferenze del singolo acquirente. Queste possibilità, descritte nelle ricerche, offrono un assaggio di come le aziende possano spingersi oltre i confini tradizionali della produttività. Ma per sfruttare davvero tali potenzialità, occorre ridefinire le filiere operative e comporre squadre di professionisti in grado di comunicare con l’AI in modo efficace. In alcuni casi, nascono figure come il “prompt engineer”, specialista nel formulare istruzioni ottimali per il sistema generativo, in modo da ottenere output coerenti e di qualità. Nascono anche tensioni sindacali e questioni di etica del lavoro, perché si teme che compiti intellettuali possano essere ridotti a mero controllo o rifinitura di quanto prodotto dalla macchina. Qui la leadership ha l’onere di spiegare come l’AI non stia erodendo la componente umana del lavoro, ma ne stia amplificando la portata, liberando tempo per attività di maggior valore. Naturalmente, non mancano le sfide legate alla proprietà intellettuale. Se una generative AI utilizza dati o contenuti di terzi per apprendere, chi detiene il diritto d’autore del risultato finale? E come si stabilisce la responsabilità in caso di plagio? “The Year in Tech 2025” suggerisce che molte di queste questioni siano ancora aperte e che nei prossimi anni imprese, governi e organizzazioni internazionali dovranno convergere verso linee guida più precise. Nel frattempo, la raccomandazione è di agire con pragmatismo: definire protocolli interni, formare i dipendenti sui temi di compliance e monitorare costantemente gli sviluppi giuridici e tecnologici per anticipare i rischi. La generative AI offre opportunità straordinarie di ampliamento delle capacità cognitive, ma per evitare contraccolpi negativi è indispensabile mantenere un presidio umano sul processo di creazione e sulle decisioni finali, senza dimenticare l’attenzione alla diversità dei dati utilizzati per addestrare i modelli, così da prevenire effetti discriminatori. Sinergia di sistemi: L’ecosistema dei veicoli elettrici in Cina Un capitolo del documento è dedicato all’analisi del mercato dei veicoli elettrici (EV) in Cina, portando l’attenzione su come il Paese sia riuscito ad acquisire una quota pari a quasi il 60% delle vendite globali di auto elettriche, secondo i dati citati. Tale risultato è frutto di una strategia pluriennale che coinvolge incentivi statali, sperimentazioni in settori affini (dai bus elettrici alle moto), partnership con imprese del settore tech e forti investimenti nelle infrastrutture di ricarica. Viene evidenziato che più della metà dei veicoli elettrici presenti sulle strade globali si trova in Cina, e alcune aziende come BYD hanno superato i numeri di Tesla nel quarto trimestre del 2023. Non è soltanto una questione di produzione a basso costo, ma di integrazione verticale e focus sulla filiera delle batterie, considerata il vero cuore tecnologico dell’EV. Aziende cinesi controllano una quota rilevante dell’estrazione di terre rare e della produzione di componenti chiave, rendendo più fluida la catena di fornitura. Questo esempio rivela l’importanza di creare un ecosistema integrato, dove il know-how si sviluppa nelle aree limitrofe per poi confluire nella produzione di massa. Nel documento si cita come BYD e Geely abbiano iniziato a sperimentare nell’ambito degli autobus elettrici e delle motociclette, imparando gradualmente a progettare e produrre batterie sempre più performanti, finché non hanno deciso di trasferire tali competenze nella realizzazione di veicoli commerciali e consumer. In parallelo, la collaborazione con player tecnologici come Baidu ha permesso di accelerare lo sviluppo di software di guida assistita e di servizi cloud per la gestione dei dati di bordo. Il successo cinese si basa anche su normative e sussidi che hanno sostenuto inizialmente i consumatori nell’acquisto di veicoli elettrici e garantito un primo mercato domestico solido, innescando un circolo virtuoso di economia di scala. Una volta consolidato il mercato interno, le aziende cinesi hanno acquisito la massa critica necessaria per aggredire i mercati esteri, offrendo prodotti competitivi anche in termini di prezzo. Nel contesto globale, “The Year in Tech 2025” mette a confronto l’approccio cinese con quello di altri Paesi. Negli Stati Uniti, l’adozione degli EV è cresciuta ma la frammentazione delle infrastrutture di ricarica e l’assenza di strategie federali unificate rallentano il ritmo. In Europa, le normative ambientali ambiziose spingono l’evoluzione verso la mobilità elettrica, ma il mercato resta disomogeneo fra Paesi con infrastrutture avanzate e altri in ritardo. Il documento ricorda la necessità di pensare all’elettrificazione dei trasporti come a un fenomeno sistemico: installare colonnine di ricarica, gestire la stabilità delle reti elettriche, valutare l’impatto ambientale e sociale dell’estrazione di materie prime, predisporre servizi post-vendita adeguati e avviare politiche di riciclo e smaltimento delle batterie. La transizione verso l’auto elettrica è dunque un percorso complesso, in cui la leadership cinese mette in luce l’importanza di una visione di lungo periodo e di sinergie tra industria, Stato e mondo accademico. Anche la questione della responsabilità ambientale viene discussa. Se è vero che le auto elettriche non emettono CO₂ allo scarico, è altrettanto vero che la produzione delle batterie e la generazione di elettricità possono avere un’impronta di carbonio rilevante, specialmente se l’elettricità deriva ancora in buona parte da fonti fossili. Per massimizzare i benefici, il documento suggerisce di adottare un approccio globale: investire in fonti rinnovabili, promuovere la ricerca su materiali per batterie più sostenibili, ridurre il peso dei veicoli per minimizzare il consumo energetico e costruire una filiera dell’usato che ne prolunghi la vita utile. In Cina si sono viste strategie di scambio delle batterie, con stazioni automatiche che sostituiscono il pacco esausto con uno carico in pochi minuti, riducendo i tempi di fermo e aprendo un mercato di condivisione delle batterie stesse. Questo genere di innovazioni, secondo “The Year in Tech 2025,” indica che l’EV non è soltanto un singolo prodotto, ma un pezzo di un puzzle più ampio di soluzioni connesse che coinvolgono i settori energetico, digitale e manifatturiero. Si intravede pure l’aspetto geoeconomico: il dominio cinese in alcune parti della catena di valore può creare dipendenze per le aziende occidentali, come già avvenuto nel settore dei semiconduttori. Le tensioni geopolitiche possono spingere i governi a localizzare la produzione di batterie e di materiali critici, con effetti significativi sui costi e sulle tempistiche di diffusione dell’EV. Tuttavia, “The Year in Tech 2025” ribadisce che la direzione verso l’elettrificazione, l’integrazione di tecnologie digitali e la creazione di un ecosistema di servizi smart appare ormai irreversibile. Le aziende che desiderano prendere parte a questa trasformazione devono prepararsi a collaborazioni incrociate, a investimenti in ricerca e a strategie di mercato flessibili. La lezione cinese dimostra che l’accumulo di competenze, l’alleanza con attori chiave e la visione sistemica rappresentano un vantaggio cruciale. Per competere su scala mondiale, le imprese non possono trascurare questi aspetti e devono attrezzarsi per una concorrenza sempre più basata su dati, software e sinergie intersettoriali. Governance e innovazione: la responsabilità nella Sinergia Uomo-Macchina Un ultimo aspetto trattato con cura in “The Year in Tech 2025” riguarda il dilemma tra libertà d’azione per le imprese innovative e tutela del bene comune, un tema che diventa urgente con la crescita di piattaforme tecnologiche sempre più potenti. L’esempio di OpenAI e delle recenti discussioni su AI generativa mette in luce come i modelli di governance classici siano sotto pressione. Se i tradizionali consigli di amministrazione tendono a massimizzare gli interessi degli azionisti, come si gestisce un possibile rischio sistemico connesso a un AI potenzialmente capace di operare scelte al di fuori del controllo umano o di manipolare informazioni su vasta scala? Le sfide non sono meramente teoriche: si pensi alle controversie antitrust intorno ad Amazon, accusata di influenzare i prezzi e di favorire i propri prodotti a scapito dei venditori terzi, o al caso di grandi aziende tecnologiche che gestiscono una mole di dati tale da compromettere la libera concorrenza. Il documento suggerisce che le imprese che vogliono mostrare impegno verso la responsabilità sociale e la sostenibilità dovrebbero superare il semplice modello di governance orientato agli utili e dotarsi di strutture più sperimentali, come i “public benefit corporation” o i consigli di amministrazione con membri indipendenti specializzati in etica e impatti sociali. L’idea di vincolare l’operato delle aziende a una missione più ampia del puro profitto sta guadagnando terreno, specialmente in settori dove l’AI ha potenziali effetti su occupazione e privacy. Tuttavia, resistenze culturali e spinte competitive non sempre rendono semplice questa transizione. La vera sfida è coniugare il desiderio di investitori e manager di estrarre valore dalle nuove tecnologie con la consapevolezza che un’innovazione priva di supervisione rischia di sfociare in conseguenze imprevedibili o danni reputazionali. Nell’ambito legislativo, “The Year in Tech 2025” menziona gli sforzi di diverse autorità, come la Commissione Europea con il Regolamento sull’AI o l’aggiornamento della normativa sulla tutela dei dati, per definire standard e responsabilità in materia di algoritmi, ma l’evoluzione tecnologica procede a un ritmo tale da superare frequentemente la capacità di intervento del legislatore. Da qui l’esigenza di creare organismi di autorità specializzati e di sviluppare una cultura della compliance fin dalle prime fasi di ideazione dei prodotti digitali. Se un’azienda progetta una piattaforma di e-commerce automatizzata, deve considerare non solo i parametri di user experience e redditività, ma anche i possibili rischi di manipolazione dei prezzi, di esclusione di alcuni fornitori o di discriminazioni algoritmiche sui consumatori più vulnerabili. Una governance proattiva indica la necessità di effettuare audit periodici sugli algoritmi, mantenere un “umano nel loop” per le decisioni più critiche e comunicare in modo trasparente criteri e finalità del sistema. Il documento riporta anche i dibattiti in corso negli Stati Uniti riguardo all’applicazione di normative antitrust nei confronti delle grandi piattaforme, come nel caso Amazon. Alcuni sostengono che la riduzione di potere di mercato di tali colossi può favorire l’innovazione e la concorrenza, mentre altri temono che interventi drastici finiscano per danneggiare la capacità di sviluppo tecnologico. Il documento rivela che lo scenario più probabile preveda forme di “compliance comportamentale” in cui queste aziende subiscano vincoli progressivi nell’uso dei dati e nella pratica di self-preferencing, senza però essere smembrate. Una simile soluzione punta a preservare i benefici di scala e la facilità d’uso offerte dalle piattaforme, limitando gli abusi più evidenti. Il tema chiave è l’equilibrio tra l’interesse collettivo e la spinta imprenditoriale: la società si attende che le imprese non agiscano in maniera irresponsabile, mentre i manager devono comunque rispondere alle aspettative degli azionisti. La governance diventa quindi un punto nodale, legato anche alla qualità del management e alla capacità di cogliere le opportunità del digitale senza perdere di vista gli impatti a lungo termine sull’occupazione, sull’ambiente e sul tessuto sociale. Conclusioni La lettura incrociata dei diversi temi di “The Year in Tech 2025” — dall’impiego di robot per l’automazione dei servizi alla biometria per proteggere e personalizzare l’esperienza dei clienti, dalla generative AI come fattore di crescita cognitiva fino alla corsa cinese ai veicoli elettrici e al confronto con le sfide di governance — mette in luce una traiettoria già evidente: le tecnologie digitali non sono più un semplice strumento per migliorare efficienza e costi, ma veri e propri alleati strategici per immaginare nuovi modelli di business e per ridefinire i mercati. Le implicazioni per le imprese sono molteplici: servirà investire in cultura interna e formazione, rivedere processi e ruoli alla luce delle potenzialità di intelligenza artificiale e robotica, ripensare la catena del valore in chiave di collaborazione con partner e fornitori e, soprattutto, gestire in modo responsabile l’enorme potere che deriva dal controllo di dati e algoritmi. I risultati cui si è giunti finora mostrano un quadro fluido, in cui la competizione non si gioca più solo sui prodotti ma sul sistema di competenze e relazioni che ogni impresa riesce ad attivare. Guardando alle altre tecnologie similari, come i sistemi di analytics avanzati o l’internet of things, si conferma l’idea che la capacità di integrare piattaforme, dati, attori diversi e normative in evoluzione rappresenti la chiave di volta per generare valore a lungo termine. Un’azienda che adotta la generative AI dovrà confrontarsi con l’implementazione pratica, l’accettazione organizzativa e i possibili rischi reputazionali: questo richiede visione strategica ma anche flessibilità e disposizione a sperimentare. Infine, la riflessione sugli impatti per la società e per le imprese suggerisce di non cedere a toni eccessivamente entusiasti: l’innovazione tecnologica va accolta con spirito critico, analizzando a fondo benefici, limiti e conseguenze. Si intravedono minacce come la concentrazione del potere di mercato, la perdita di controllo su dati sensibili o la sostituzione affrettata di competenze umane. Eppure, si profilano anche opportunità di sviluppo economico, nuove professioni, maggiore equità d’accesso ai servizi e soluzioni sostenibili. Per dirigenti e imprenditori, la sfida è immaginare uno scenario in cui umanità e tecnologia collaborino e si potenzino a vicenda, rispettando valori etici e norme condivise. In questo quadro, la posta in gioco è l’evoluzione complessiva del modello di impresa, orientato non più soltanto al profitto immediato ma all’equilibrio fra progresso e responsabilità, fra mercato globale e bisogni sociali, fra competitività e tutela delle generazioni future. È un percorso che richiede visione, leadership e un costante affinamento di strategie e competenze per navigare un futuro dai contorni ancora in parte indefiniti. Podcast: https://creators.spotify.com/pod/show/andrea-viliotti/episodes/Sinergia-Uomo-Macchina-le-prospettive-tecnologiche-di-The-Year-in-Tech-2025-e2sqo50 Fonte: https://store.hbr.org/product/the-year-in-tech-2025-the-insights-you-need-from-harvard-business-review/10741
Generative Agent Simulations: Modeling Human Behavior through Qualitative Interviews
The study titled “Generative Agent Simulations of 1,000 People,” conducted by Joon Sung Park, Carolyn Q. Zou, and Aaron Shaw, highlights how Generative Agent Simulations can model human behavior through qualitative interviews, with support from prestigious institutions such as Stanford University, Northwestern University, the University of Washington, and Google DeepMind, explores how Generative Agent Simulations can replicate human behaviors using large language models. The research focuses on how in-depth qualitative interviews can provide essential data for constructing generative agents capable of accurately replicating the responses of more than a thousand people in sociological and experimental contexts. The overarching goal is to understand whether these simulations can offer a virtual laboratory for testing theories and policies in the social domain. Generative Agent Simulations: Modeling Human Behavior through Qualitative Interviews Generative Agent Simulations: Data Insights and Research Goals This study, focusing on Generative Agent Simulations , aligns with a sociological tradition that models human behavior through abstract agents, typically anchored to mathematical rules or simplified assumptions about decision-making processes. While this approach is useful for testing basic theories, it often struggles to capture the real-world complexity of everyday life. In “Generative Agent Simulations of 1,000 People,” the challenge is different: leveraging the power of large language models to build agents generated from qualitative interview transcripts. The research team aimed to collect extensive and detailed information about the lives of over a thousand individuals, with the goal of creating a wide array of agents capable of providing coherent answers to diverse questions, stimuli, and situations. The selection of the human sample was based on demographic stratification criteria that took into account age, geographic area, gender, education level, and political orientation, among other factors. The aim was to obtain a representative sample of the U.S. population, avoiding models that would only be valid for specific subgroups. Each participant took part in a two-hour interview conducted through an AI system acting as a “virtual interviewer.” This choice helped maintain a certain uniformity in style and expertise when posing follow-up questions, so as to extract personal and complex information. The interviews included both general questions—on life history and the perception of social issues—as well as more personal inquiries, such as educational paths, family relationships, political values, and work-related aspects. A protocol inspired by the American Voices Project, a well-established sociological initiative in the United States, was adopted to capture the wide variety of nuances through which people describe their lives. It is important to note that the interview questions were not specifically tailored to subsequent tests (General Social Survey, Big Five, or experimental games), thereby reducing the risk of unintentionally “training” participants to respond in line with those tests. The breadth of the thematic coverage, coupled with the freedom granted to the interviewees, produced very extensive transcripts: on average, about 6,491 words per person, with some interviews far exceeding this threshold. These data form the “memory” of each generative agent. Essentially, a large language model such as GPT-4 was fed the full transcript of each participant. When a researcher wants to query the agent that represents a specific individual, the model receives the interview as a prompt, along with certain internal reflection mechanisms that help identify the most relevant content to deliver. A crucial point involves verifying how closely these simulations reflect the real behavior of the interviewees. It is not enough to confirm that the agent responds coherently; a quantitative comparison is needed between the answers provided by the real participants and the answers from the agents in follow-up surveys. To this end, each subject was asked to complete four types of tests: the core part of the General Social Survey (GSS), the Big Five questionnaire (BFI-44), a battery of well-known economic games (such as the Dictator Game, the Trust Game, and the Public Goods Game), and some social psychology experiments already replicated at a large scale. The participants completed these tests twice: once immediately after the interview and once two weeks later, to measure inconsistencies in their own responses. In other words, if a person contradicts themselves easily, it becomes more difficult for the agent to replicate their behavior. From this, the concept of normalized accuracy arises, calculated by dividing the agent’s accuracy by the participant’s demonstrated consistency, i.e.: normalized accuracy = (agent accuracy) / (participant’s internal replication) The research also highlights the privacy and data security measures adopted, such as name redaction, de-identification of transcripts, and the possibility of revoking consent. Along with these safeguards, the authors devised an “agent bank” infrastructure to allow other scholars to test hypotheses and query these agents under an ethical framework that respects data protection regulations. Essentially, this first phase aims to understand how the depth and variety of topics covered in the interview can give rise to generative agents for each individual, potentially capable of answering questions on any topic: political, social, or even experimental. The use of broad-ranging interviews addresses the need to go beyond traditional models based on a few demographic variables, thereby reducing the risk of falling into stereotypes. The presence of a rich and personal data set should allow the agent to approximate what the interviewee actually thinks or does. Generative Architecture: Advancing Precision and Reliability One of the distinctive features of this study is the method used to transform interview transcripts into true agents. Specifically, each time a query is made, the entire transcript is “injected” into the language model prompt. A text-based memory of synthetic reflections, often generated automatically, is also included to help the model retrieve the relevant information that emerged during the conversation. Practically speaking, when one asks an agent, “What do you think about a hypothetical new public health law?”, the model scans the corresponding participant’s interview and “expert” reflections to produce a plausible response that is consistent with the positions expressed by the original interviewee. This approach differs significantly from classic agent-based models that use rigid rules or abstract utility functions. The project relies on the assumption that large language models incorporate general knowledge of human behavior and that combining them with individual testimonies could enable the creation of agents capable of reproducing specific personalities. However, to confirm whether this actually happens in an accurate way, the authors opted for a direct comparison between each agent’s responses and the real individual’s answers to the relevant survey or experiment. A first level of analysis involves the General Social Survey. This includes 177 core questions with categorical or ordinal responses and 6 questions of a numeric type. It was calculated that the average consistency among participants—i.e., the degree to which each individual replicated their own answers after two weeks—was about 81.25%, whereas the agents’ raw accuracy on the same responses was around 68.85%. If one normalizes 68.85% by dividing it by 81.25%, the result is about 0.85. In other words, the agent approaches 85% of the consistency that a real person has with themselves. This result is deemed more than satisfactory, especially compared to “brief description” alternatives (demographic data or short self-written portraits), which produced normalized accuracy values around 0.70–0.71. A second level of analysis concerns the Big Five Personality Inventory, composed of 44 items aimed at assessing traits such as openness, conscientiousness, extraversion, agreeableness, and emotional stability. Here, accuracy was evaluated using correlation and Mean Absolute Error, since the answers follow a continuous scale. Comparing the agent’s responses with the participant’s self-replication yielded a normalized correlation of about 0.80 for interview-informed agents, suggesting a solid ability to capture personality structure without falling into stereotypes. Again, agents constructed only from demographic data showed lower correlations. A third level of analysis involved five economic games: the Dictator Game, the Trust Game (both first and second player), the Public Goods Game, and the Prisoner’s Dilemma. These tests introduce monetary incentives along with dynamics of cooperation or trust. The average correlation between the agents’ choices and the actual participants’ choices was around 0.66, with a similar normalization (0.66). Unlike the GSS and Big Five, here there is not such a pronounced statistical advantage when comparing these agents to other agent types, although the interview agents generally perform better. One point raised by the authors is that economic behaviors can be more variable and subject to contextual factors not necessarily surfacing during the interview: a participant may decide to be altruistic on a certain day and more selfish on another, reducing even their own internal consistency. From a technical standpoint, the generative architecture also employs a so-called “reflection module” to extract high-level inferences and allow the model to focus on crucial portions of the transcript. In addition, a specific effort is made to reduce biases by introducing more behavioral descriptions, rather than labeling individuals by race, gender, or ideology. In fact, one of the most interesting findings is a reduction in accuracy disparities across political or racial subgroups. For instance, with political groups, using interview-based agents reduces the accuracy gap between ideological extremes from about 12.35% to 7.85%. This suggests that agents based on rich, personal information are less prone to the typical generalizations made by simple demographic agents. Assessing Results: GSS, Big Five, and Economic Games After discussing the architecture and general goals, it is helpful to delve into the evaluation methodologies employed in the study, focusing on the accuracy and consistency measures, as well as the reasons behind the choice of the GSS, Big Five, and certain classic economic games. The General Social Survey is one of the most long-standing and respected sociological surveys, covering a wide spectrum of questions ranging from social and political considerations to matters of religiosity, family customs, and perceptions of institutions. In the research, the authors specify that they used 177 core questions and excluded those with more than 25 response options or open-ended answers that could not be compared. Through these items, participants reveal their positions on topics ranging from support for specific public policies to their level of trust in institutions. The agent, in turn, must select among the same options the one that best reflects the original participant’s viewpoint, as gleaned from the interview. All of this is compared with the actual answers the individual provided in the questionnaires. One of the most challenging aspects of this process lies in the fact that humans themselves are not always consistent in their opinions. Numerous studies have shown that, over time, a person may give somewhat different responses when taking the same survey again, owing to mood changes, new information, or even a slightly different interpretation of the question. This is why the study introduced internal replication of each participant after two weeks. For example, if an individual confirms 80% of their previous responses, an agent that hits 70% of the same answers actually achieves a performance of (70% / 80%) = 0.875, i.e., a normalization of 0.875. Moving on to the Big Five Personality Inventory, the choice of this scale is strategic for two reasons. First, personality traits have a strong foundation in the literature and tend to remain relatively stable over time, at least for adults. Second, these trait scores are derived from multiple questions, which, when summed in an index, help reduce statistical noise. The use of Likert scales with continuous values requires correlation calculations and Mean Absolute Error (MAE) to measure the distance between answers. Here as well, participant consistency is not guaranteed, so the researchers evaluated the correlation between the initial session and the one two weeks later. The interview agent showed a correlation with human scores that, in numerical terms, yields a normalized value of about 0.80. According to the authors, these figures are higher than those for agents fed only demographic information or brief “person-based” descriptions. The economic games add a different behavioral dimension: they are no longer just verbal preferences but involve choices with real monetary costs and benefits. The Dictator Game, for instance, measures a person’s willingness to share (or not) a sum of money with another player. The Trust Game focuses on trust and repayment, while the Public Goods Game examines how multiple players contribute to a collective good. Finally, the Prisoner’s Dilemma is a classic for exploring strategic cooperation or defection. The paper mentions that real monetary incentives were used, encouraging participants to choose sincerely. Results show that the correlation between the agents’ actions and the participants’ actual choices is about 0.66 for interview-based agents—a figure considered noteworthy, given the chance variability typical of such games. The challenge here is not just interpreting the interview and guessing someone’s personality but also anticipating strategic choices, possibly influenced by emotional factors. In summary, the evaluations covering the GSS, Big Five, and economic games span a broad range of attitudes, beliefs, and practical behaviors. The agents excel particularly in replicating responses to sociopolitical questionnaires and in identifying personality traits. Meanwhile, their performance in strategic games, though still interesting, is more modest. This suggests that, while the interview provides a significant information repository, certain aspects of behavior may not be fully captured by mere autobiographical narratives. Experimental Insights: Simulations and Treatment Effects A further step that characterizes the study is the verification of the agents’ capacity to predict treatment effects in experimental contexts. Social research often uses experiments in which subjects are split into control and treatment groups to test hypotheses about reactions to artificial situations, moral vignettes, or scenario manipulations. The paper describes five experiments from a large-scale replication project (the Mechanical Turk Replication Project), involving scenarios such as perceived harm based on intentionality, the relevance of fairness in decisions, and the role of dehumanization in someone’s willingness to harm another. In short, the real participants successfully replicated four out of five studies, failing in one—an outcome not surprising in scientific literature, as replications don’t always fully confirm the original reported effects. The novelty lies in the fact that the interview agents produced the same replication results: they detected a significant effect in four studies and a non-relevant outcome in the fifth. Even more surprising is the correlation between the effect sizes observed among real participants and those of the agents, which nearly reaches 0.98. This value reflects a near-perfect alignment with the experimental “variance” measured in the participants. Essentially, this suggests that the agent not only reproduces individual behaviors but also mirrors group dynamics, showing the same effects observed in the experimental conditions applied to the real participants. Each of the five experiments had a slightly different design. In one, for example, people were asked to judge whether the culprit of a harmful act had acted intentionally or by mistake, and how this influenced the need for punishment. In another, the effect of a sense of power on the level of trust in a potential exchange partner was tested. For each scenario, the agents received the same instructions and conditions (text or images) and, just like the participants, provided their response. According to the authors, the fact that group-level differences match real-world outcomes on a population scale could open new possibilities. One might imagine conducting a pilot study on a thousand agents—each anchored to a real person’s interview—to “probe” the expected effect of an intervention before investing in an expensive human experiment. Caution is advised, however: the idea is not to completely replace real participants, because even the most accurate model cannot update itself on events occurring after the interview. Also, if significant changes occur or if they concern areas not mentioned during the interview, the simulation may be incomplete. The paper also highlights the risks of using these agents superficially in policy-making contexts. For instance, if one wanted to test a new public health awareness campaign, the agents could offer a glimpse of how various population segments might react. But one must remember that the agents cannot exceed the limits of the data they contain: if the interview failed to address crucial aspects, their responses might be arbitrary. Nonetheless, the high correlation coefficient between the treatments experienced by participants and those produced by the agents shows that, with proper controls and a thorough interview protocol, these simulation systems can serve as a useful and stimulating virtual laboratory. Addressing Biases and Data Access in Generative Simulations A well-known issue in artificial intelligence is the presence of bias during training or in defining agent profiles. Models relying on simple demographic labels often fall into stereotypes, disadvantaging minority groups or underrepresented categories. Encouragingly, the study shows that agents generated from interviews exhibit a smaller performance gap than those relying solely on demographic attributes. Looking at the Demographic Parity Difference (DPD), which measures the disparity in accuracy between the most and least favored group, interview-based models significantly shrink the gap—for instance, from 12.35 percentage points at ideological extremes down to about 7.85. A similar pattern is observed for racial variables, although the degree of improvement can vary in some cases. This finding can be explained by the very nature of qualitative interviews, which enable the agent to draw from a wide range of personal content, rather than relying on a “typical profile.” In the case of agents built on basic categories like gender, age, or ideological stance, the language model tends to reproduce typical images that are necessarily incomplete and fail to capture individual complexity. Conversely, if a person from a certain minority group shares a specific life experience in the interview, the text-based agent will remember that experience, reducing the risk of broad generalizations. The study also introduces an “agent bank” system designed to make these virtual profiles available to the scientific community. The idea is to provide access at two levels: a more open level with aggregated data, allowing researchers to explore general trends without violating participants’ privacy; and a more restricted level with specific permissions for open-ended queries and access to individual responses. This second level would be useful for those needing to run particularly detailed simulations or test new experimental protocols, which require interacting with individual agents in a personalized way. However, oversight procedures, control logs, and restrictions on commercial use would be necessary to safeguard participants’ rights. On an application level, the prospects appear varied. In the social sciences, simulating a thousand individuals anchored to real interviews could help formulate hypotheses about how different population segments might react to a particular event, such as a new legislative proposal or a health crisis. One could analyze how a group of agents behaves on virtual social networks, exploring opinion polarization or information spread. In marketing and market research contexts, a company might want to “question” the agents to grasp purchasing trends, with the understanding that these agents represent a snapshot in time rather than a dynamic update. At the same time, the research invites caution. Although the results are promising and show a strong alignment between agents and real participants, no simulation can entirely replace real-world studies on human samples, particularly in evolving social and informational contexts. The value of the “Generative Agent Simulations of 1,000 People” approach is to offer a preliminary testing ground for research hypotheses—a virtual lab where one can explore, at lower cost and in less time, the impact of certain inputs. Yet the authors maintain that any significant conclusions must be backed up by field verification and ongoing reassessment of the timeliness and validity of the interview data. A further strategic consideration is the opportunity to expand the study to other populations or to specialized interviews on niche topics. If the interview protocol targeted a specific group—for instance, individuals working in a particular medical field—the resulting agents could provide very detailed projections about hospital policies. Conversely, maximum diversity (like the general population in this study) offers a broader perspective but one that is less deeply specialized. In any case, the richness of these agents hinges on the comprehensiveness of their interviews, which must be meticulously designed to capture the complexities of human life without resorting to excessive redundancies. Conclusions The findings of “Generative Agent Simulations of 1,000 People” indicate that combining in-depth qualitative interviews with large-scale language models can yield highly plausible human simulation scenarios. Accuracy reaches notable levels in questionnaire responses, such as those in the GSS, and in detecting personality traits. Even in economic games and social psychology experiments, the collective coherence of the agents is strikingly close to that observed in actual participants. However, from a managerial or entrepreneurial standpoint, one should not expect these agents to become a perfect substitute for field surveys. The social context evolves, and interview data are ultimately a static snapshot that will age over time. The strategic reflection, then, revolves around the possibility of using these agents as an initial testing ground for communication or policy strategies. If a company or institution wished to gauge how a certain population segment might respond to a new product, it could run a preliminary simulation with hundreds of “personalized” agents, gathering insights on potential reactions, conflicts, or divergences. Subsequently, a more targeted and smaller-scale traditional experiment could be conducted, optimizing time and costs. One could also investigate group dynamics, for example, the formation of opinion clusters, in a virtual environment. While this approach is certainly feasible, it should be accompanied by ongoing scrutiny of the data’s origin and relevance: if the interview materials are outdated or incomplete, the simulation’s outcomes will likewise be limited or biased. Comparing this method with other existing simulation tools reveals that generative agents offer a remarkably greater level of granularity, as each agent is anchored to a real individual rather than to a generic construct. Still, open questions remain regarding how participants’ personalities and choices might change over time—an issue not handled by static models. Moreover, simpler techniques already exist that address “similar tasks,” such as traditional preference modeling in marketing or electoral behavior simulators. However, those solutions rarely integrate such a rich textual component that could reflect responses to complex proposals and scenarios. The study at hand thus introduces new possibilities but also requires caution, enhanced ethical oversight, and continual data maintenance. Over the longer term, one could imagine extending this approach internationally or integrating additional data collection methods, such as face-to-face interviews or biometric information and social media history—provided there is explicit consent. This would be another step toward simulations that more closely reflect real people, with the caveat of heightened privacy concerns. The authors of this work underscore the importance of a responsible governance system—one that balances data transparency, the protection of interviewees, and the need for innovative research. The path is clear: using interview-based agents could lead to deeper analyses of human dynamics, yielding rapid feedback and lowering certain logistical barriers. Nonetheless, any simulation must be handled with awareness of its limitations and the inherent uncertainty in forecasting real human behavior. Podcast: https://creators.spotify.com/pod/show/andrea-viliotti/episodes/Generative-Agent-Simulations-model-behavior-through-interviews--revolutionizing-social-science-research-and-experimental-applications-e2spv9u Source: https://arxiv.org/abs/2411.10109
Generative Agent Simulations: dinamiche di intervista e applicazioni nelle scienze sociali
Lo studio intitolato 'Generative Agent Simulations of 1,000 People', condotto da Joon Sung Park, Carolyn Q. Zou e Aaron Shaw, con il supporto di istituzioni di prestigio come Stanford University, Northwestern University, University of Washington e Google DeepMind, esplora come le Generative Agent Simulations possano replicare comportamenti umani utilizzando large language models. La ricerca si concentra su come interviste qualitative in profondità possano fornire dati essenziali per costruire agenti generativi, capaci di replicare con accuratezza le risposte di oltre mille persone in contesti sociologici e sperimentali. L’obiettivo generale è comprendere se tali simulazioni possano offrire un laboratorio virtuale per testare teorie e politiche in ambito sociale. Generative Agent Simulations: dinamiche di intervista e applicazioni nelle scienze sociali Generative Agent Simulations: dati e obiettivi della ricerca La ricerca si colloca in una tradizione sociologica che, già in passato, ha cercato di modellare il comportamento umano attraverso agenti astratti, tipicamente ancorati a regole matematiche o ipotesi semplificate sui processi decisionali. Questo approccio, se da un lato risulta utile per testare teorie di base, spesso soffre di una scarsa aderenza alla complessità reale della vita quotidiana. Nel lavoro intitolato “Generative Agent Simulations of 1,000 People”, la sfida è diversa: sfruttare la potenza dei large language models per costruire agenti generati da trascrizioni di interviste qualitative. Il team di ricerca si è proposto di raccogliere informazioni estese e dettagliate sulle vite di oltre mille individui, con l’obiettivo di creare un ampio ventaglio di agenti in grado di rispondere in modo coerente a domande, stimoli e situazioni variegate. La selezione del campione umano si è basata su criteri di stratificazione demografica che tenessero conto di età, area geografica, genere, livello di istruzione e posizionamento politico, tra gli altri fattori. La finalità era ottenere un campione rappresentativo della popolazione statunitense, così da non limitare l’efficacia del modello a sottogruppi specifici. Ogni partecipante ha preso parte a un colloquio di due ore, realizzato tramite un sistema di intelligenza artificiale che fungeva da “intervistatore virtuale”. Questa scelta ha permesso di mantenere una certa omogeneità di stile e di competenza nel porre domande di approfondimento, in modo da estrarre informazioni personali e complesse. Le interviste hanno incluso sia domande generali, ad esempio sulla storia di vita e la percezione di temi sociali, sia quesiti più personali, quali i percorsi di studio, le relazioni familiari, i valori politici e gli aspetti lavorativi. È stato adottato un protocollo ispirato all’American Voices Project, un’iniziativa sociologica già consolidata negli Stati Uniti, pensata per cogliere la varietà di sfumature attraverso cui le persone raccontano la propria esistenza. Importante è sottolineare che le domande di intervista non sono state specificamente tarate sui test successivi (General Social Survey, Big Five o giochi sperimentali), così da ridurre il rischio di “addestrare” inconsapevolmente i partecipanti a rispondere in linea con quelle prove. L’ampiezza della copertura tematica, unita alla libertà lasciata all’intervistato, ha prodotto trascrizioni molto corpose: si parla di una media di 6.491 parole a persona, con alcune interviste che hanno superato ampiamente questa soglia. Tali dati costituiscono la “memoria” di ciascun agente generativo. In sostanza, un grande modello linguistico come GPT-4 è stato alimentato con la trascrizione completa di ogni partecipante. Quando un ricercatore vuole interrogare l’agente che rappresenta un determinato individuo, il modello riceve come prompt l’intervista e alcuni meccanismi di riflessione interni che aiutano a identificare i contenuti più rilevanti da restituire. Un punto cruciale è rappresentato dall'obiettivo di verificare quanto queste simulazioni riflettano il comportamento reale degli intervistati. Non è sufficiente accertare che l'agente risponda in maniera coerente: è necessario un confronto quantitativo con le risposte ottenute dai partecipanti attraverso questionari e test svolti successivamente all’intervista. A questo fine, si è chiesto a ogni soggetto di sottoporsi a quattro tipologie di prove: la parte centrale del General Social Survey (GSS) , il questionario Big Five (BFI-44), una serie di giochi economici noti (come il Dictator Game, il Trust Game e il Public Goods Game) e alcuni esperimenti di psicologia sociale già oggetto di replicazioni di ampia scala. I partecipanti hanno completato questi test due volte: una volta subito dopo l’intervista e una volta due settimane dopo, così da misurare l’eventuale incoerenza delle proprie stesse risposte. In altre parole, se una persona si contraddice facilmente, la difficoltà per l’agente di replicarne il comportamento cresce. Nasce da qui il concetto di accuratezza normalizzata, calcolata dividendo l’accuratezza dell’agente per la coerenza dimostrata dal partecipante, cioè: accuratezza normalizzata = (accuratezza dell’agente) / (replicazione interna del partecipante) . All’interno della ricerca, si mettono in evidenza anche le tutele adottate per la privacy e per la sicurezza dei dati, come l’oscuramento di nomi, la de-identificazione delle trascrizioni e la possibilità di revoca del consenso. Insieme a queste precauzioni, è stata ideata un’infrastruttura di “banca di agenti” per consentire ad altri studiosi di testare ipotesi e di interrogarli secondo un quadro etico e rispettoso delle normative sulla protezione dei dati. L’essenza di questa prima fase sta dunque nel cogliere come la profondità e la varietà di argomenti affrontati nell’intervista possano dar vita ad agenti generativi di singoli individui, potenzialmente capaci di rispondere a domande in qualunque ambito: politico, sociale, persino di natura sperimentale. L’uso di interviste ampie risponde alla necessità di andare oltre i tradizionali modelli che si basano su poche variabili demografiche, scongiurando così il rischio di cadere in stereotipi. La presenza di una base dati ricca e personale dovrebbe permettere di avvicinare l’agente a ciò che la persona intervistata effettivamente pensa o fa. Architettura generativa: precisione e affidabilità Una delle particolarità di questo studio è il metodo con cui le trascrizioni delle interviste vengono trasformate in veri e propri agenti. Si parla infatti di un’architettura che, a ogni interrogazione, “inietta” l’intera trascrizione nel prompt del modello di linguaggio. A questo si aggiunge una memoria testuale di riflessioni sintetiche, spesso generate in automatico, per aiutare il modello a richiamare le informazioni pertinenti emerse durante la conversazione. In pratica, quando si chiede a un agente “Cosa pensi di un’ipotetica nuova legge su salute pubblica?”, il modello setaccia l’intervista del relativo partecipante e le riflessioni “esperte”, per emettere una risposta plausibile e coerente con le posizioni espresse dall’intervistato originale. Questo approccio differisce nettamente dai classici agent-based models che utilizzano regole rigide o funzioni di utilità astratte. Il progetto si fonda sull'ipotesi che i grandi modelli linguistici incorporino una conoscenza generale del comportamento umano e che integrarli con testimonianze individuali possa consentire la creazione di agenti in grado di riprodurre personalità specifiche. Tuttavia, per capire se ciò avvenga in modo accurato, gli autori hanno voluto procedere a un confronto diretto tra la risposta dell’agente e la risposta reale dell’individuo nel questionario o nell’esperimento di riferimento. Un primo livello di analisi riguarda il General Social Survey . Qui si parla di 177 domande core con risposte categoriche o ordinali e di 6 quesiti di tipo numerico. Si è calcolato che la coerenza media dei partecipanti, cioè, il grado in cui ciascuno replica a sé stesso a distanza di due settimane, è pari all’81,25%, mentre la precisione grezza degli agenti su queste stesse risposte è intorno al 68,85%. Se si normalizza dividendo 68,85% per 81,25%, si ottiene circa 0,85. In altre parole, l’agente si avvicina all’85% della coerenza che la persona reale ha con sé stessa. Questo risultato è stato giudicato più che soddisfacente, soprattutto in confronto ad alternative di “descrizione breve” (demografiche o piccoli ritratti scritti dai partecipanti stessi) che davano valori intorno a 0,70-0,71 di accuratezza normalizzata. Un secondo livello di analisi riguarda il Big Five Personality Inventory , composto da 44 domande per valutare tratti come l’apertura mentale, la coscienziosità, l’estroversione, l’amicalità e la stabilità emotiva. Qui l’accuratezza è stata valutata in termini di correlazione e di Mean Absolute Error, visto che le risposte seguono una scala continua. Il confronto con la replicazione interna del partecipante ha mostrato un risultato di circa 0,80 come correlazione normalizzata per gli agenti informati da interviste, il che suggerisce una buona capacità di intercettare la struttura di personalità, senza appiattirsi su stereotipi. Anche in questo caso, agenti costruiti solo su dati demografici hanno dato correlazioni più basse. Un terzo livello di analisi ha coinvolto cinque giochi economici : Dictator Game, Trust Game (primo e secondo giocatore), Public Goods Game e Prisoner’s Dilemma. Questi test introducono incentivi monetari e dinamiche di cooperazione o fiducia. Il risultato medio per la correlazione grezza degli agenti, confrontata con le scelte effettive dei partecipanti, si attesta intorno a 0,66, con una normalizzazione simile (0,66). A differenza del GSS e del Big Five, qui non c’è un vantaggio statistico così marcato nel confronto con altre tipologie di agenti, anche se gli agenti intervista restano tendenzialmente migliori. Uno dei punti discussi dagli autori è che i comportamenti economici possono essere più volubili e sensibili a fattori di contesto che non emergono necessariamente nell’intervista: un partecipante può decidere di essere altruista in un certo giorno e un po’ più egoista in un altro, riducendo anche la sua stessa coerenza interna. Sul versante tecnico, l’architettura generativa adotta anche un cosiddetto “reflection module” per estrarre inferenze di alto livello e permettere al modello di focalizzarsi sui passaggi cruciali della trascrizione. Inoltre, c’è un impegno specifico nella riduzione dei bias, introducendo descrizioni di tipo più comportamentale e meno etichettate in base a razza, genere o ideologia. In effetti, uno degli esiti più interessanti è la riduzione di disparità di accuratezza tra sottogruppi politici o razziali. Per esempio, per i gruppi politici, l’uso delle interviste riduce il divario di accuratezza tra estremi ideologici da circa 12,35% a 7,85%. Ciò suggerisce che gli agenti che si basano su informazioni ricche e personali evitano di scadere nelle generalizzazioni tipiche dei semplici agenti demografici. GSS, Big Five e Giochi Economici: valutazioni dei risultati Dopo aver discusso l’architettura e le finalità generali, è utile approfondire le metodologie di valutazione adottate nel lavoro in questione, soffermandosi sulle misure di accuratezza e coerenza, nonché sui motivi che hanno portato a selezionare proprio GSS, Big Five e alcuni classici giochi economici. Il General Social Survey è una tra le più longeve e rispettate indagini sociologiche, con un ampio spettro di domande che vanno da considerazioni su temi sociali e politici fino a questioni sulla religiosità, i costumi familiari e la percezione delle istituzioni. Nella ricerca, gli autori specificano di aver usato 177 quesiti centrali e di aver escluso quelli con più di 25 opzioni di risposta o con risposte aperte non comparabili. Attraverso questi item, il partecipante rivela la propria posizione su argomenti che vanno dal sostegno a specifiche politiche pubbliche, fino al livello di fiducia nelle istituzioni. L’agente, a sua volta, deve selezionare tra le stesse opzioni l’alternativa che meglio rispecchia il punto di vista del partecipante originario, così come è emerso dai contenuti dell’intervista. Il tutto è messo a confronto con la risposta concreta che il soggetto ha fornito nei questionari. Uno degli aspetti più difficili in questa operazione sta nel fatto che anche la persona umana non è sempre stabile nelle proprie opinioni. Molti studi hanno mostrato che, a distanza di tempo, la ripetizione di un questionario può portare a risposte talvolta differenti, complice un cambiamento d’umore, una nuova informazione sopraggiunta o più semplicemente un’interpretazione leggermente diversa della domanda. Ecco perché nel documento si è introdotta la replicazione interna del partecipante a due settimane di distanza. Se, per esempio, un individuo conferma all’80% le sue risposte precedenti, un agente che ottiene un 70% di risposte coincidenti raggiunge in realtà una performance di (70% / 80%) = 0,875, cioè una normalizzazione di 0,875. Passando al Big Five Personality Inventory , la scelta di questa scala appare strategica per due ragioni. Primo, i tratti della personalità hanno basi solide in letteratura e risultano relativamente stabili nel tempo, almeno per un adulto. Secondo, i punteggi derivano da più domande che, sommate in un indice, permettono di ridurre il rumore statistico. L’uso di scale Likert con valori continui richiede calcoli di correlazione e Mean Absolute Error (errore medio assoluto) per misurare la distanza tra le risposte. Anche in questo caso, la coerenza del partecipante non è scontata, e i ricercatori hanno quindi valutato la correlazione fra la sessione iniziale e quella di due settimane dopo. L’agente intervista, dotato delle trascrizioni, ha mostrato un livello di correlazione con i punteggi umani che, a conti fatti, sfiora un indice normalizzato di 0,80. Gli autori sottolineano che questi valori sono superiori a quelli di agenti nutriti di sole informazioni demografiche o di brevi descrizioni “persona-based”. I giochi economici aggiungono una prospettiva comportamentale diversa: non si tratta più di semplici preferenze verbali, ma di scelte che implicano costi e benefici monetari. Il Dictator Game, per esempio, misura la tendenza a condividere o meno una somma di denaro con un altro giocatore. Il Trust Game si focalizza sulla capacità di fiducia e di restituzione, mentre il Public Goods Game mette più persone di fronte al dilemma del contributo a un bene collettivo. Infine, il Prisoner’s Dilemma è un classico per comprendere la cooperazione o la defezione strategica. Nel documento si riferisce di un incentivo economico reale, in modo da spingere i partecipanti a scegliere con sincerità. Emerge che la correlazione con le mosse effettive dei partecipanti è circa 0,66 per gli agenti da intervista, un dato ritenuto comunque degno di nota, considerando la componente di variabilità contingente che contraddistingue questi giochi. La sfida, infatti, non è soltanto interpretare l’intervista e indovinare la personalità del soggetto, ma anche prevedere scelte strategiche, magari influenzate da fattori emotivi. In sintesi, la valutazione su GSS, Big Five e giochi economici copre un ventaglio ampio di atteggiamenti, credenze e comportamenti pratici. Gli agenti si dimostrano abili soprattutto nel replicare risposte a questionari di tipo sociopolitico e nel calcolo dei tratti di personalità, mentre mostrano prestazioni più moderate, pur sempre interessanti, nei giochi di natura strategica. Questo quadro suggerisce che, sebbene l’intervista offra un patrimonio informativo significativo, certi aspetti del comportamento potrebbero sfuggire alle semplici narrazioni autobiografiche. Simulazioni e effetti di trattamento: implicazioni sperimentali Il passo ulteriore che contraddistingue lo studio è la verifica della capacità degli agenti di prevedere anche effetti di trattamento in contesti sperimentali. Spesso, la ricerca sociale fa uso di esperimenti in cui i soggetti sono suddivisi in gruppi di controllo e gruppi di trattamento, per testare ipotesi sulle reazioni a situazioni artificiali, vignette morali o manipolazioni di scenario. Il documento descrive cinque esperimenti tratti da un progetto di replicazione su larga scala (il Mechanical Turk Replication Project), comprendenti situazioni come la valutazione del danno percepito in base all’intenzione, la rilevanza della correttezza nelle decisioni e il ruolo della deumanizzazione nella disponibilità a far del male a un individuo. In sintesi, i partecipanti reali hanno replicato con successo quattro studi su cinque, fallendo in uno. Questo risultato non è sorprendente, poiché nella letteratura scientifica le repliche non confermano sempre completamente gli effetti riportati negli studi originali. La vera novità risiede nel fatto che anche gli agenti intervista hanno ottenuto gli stessi esiti di replicazione: hanno rilevato un effetto significativo in quattro studi e un risultato non rilevante nel quinto. Un aspetto ancora più sorprendente è la correlazione tra le dimensioni dell’effetto osservate nei partecipanti reali e quelle degli agenti, che si avvicina a 0,98. Questo valore riflette una quasi perfetta coerenza con la "varianza" sperimentale rilevata. In pratica, questo indica che l’agente non si limita a riprodurre i comportamenti dei singoli individui, ma è anche in grado di riflettere le dinamiche di gruppo, mostrando gli stessi effetti riscontrati nelle condizioni sperimentali applicate ai partecipanti reali. Ciascuno dei cinque esperimenti presentava un disegno leggermente diverso. In uno si chiedeva, per esempio, di giudicare se il colpevole di un atto dannoso avesse agito con intenzione o per errore, e come questo influisse sulla necessità di punizione. In un altro, si verificava se la percezione di potere alterasse il livello di fiducia che un individuo ripone in un potenziale partner di scambio. Per ogni scenario, gli agenti venivano esposti alle stesse istruzioni e condizioni (testo o immagini) e, proprio come i partecipanti, producevano la loro scelta di risposta. Il fatto che le differenze di gruppo rispecchino quelle reali su scala di popolazione, secondo gli autori, potrebbe aprire a nuove prospettive. Immaginare di condurre uno studio pilota su un migliaio di agenti, ancorati a interviste reali, potrebbe permettere di “sondare” in anticipo l’effetto atteso di un intervento, prima di impegnarsi in una costosa sperimentazione umana. Tuttavia, si invitano i lettori alla cautela: non si tratta di sostituire in toto i partecipanti reali, perché rimane il problema che il modello, per quanto accurato, non può aggiornarsi su eventi successivi all’intervista. Inoltre, se intervengono cambiamenti significativi o contesti di cui l’intervistato non ha discusso, la simulazione potrebbe risultare incompleta. Il documento mette anche in luce i rischi associati a un utilizzo superficiale di questi agenti in contesti di policy-making. Per esempio, se si volesse testare una nuova campagna di sensibilizzazione sanitaria, gli agenti potrebbero dare un’idea di come segmenti di popolazione reagirebbero. Ma occorrerebbe sempre considerare che gli agenti non possono superare i limiti dei dati in loro possesso: se l’intervista non approfondisse certi aspetti cruciali, la loro risposta potrebbe risultare arbitraria. In ogni caso, l’elevato indice di correlazione fra i trattamenti sperimentali subiti dai partecipanti e quelli attribuiti dagli agenti dimostra che, con i giusti controlli e un protocollo di intervista ampio, questi sistemi di simulazione possono diventare un laboratorio virtuale utile e stimolante. Bias demografici e accesso ai dati: sfide e opportunità Un problema ben noto nel campo dell’intelligenza artificiale è la presenza di bias nella fase di addestramento o nella definizione dei profili degli agenti. Sovente, modelli che si basano su semplici etichette demografiche finiscono per cadere in stereotipi, penalizzando gruppi minoritari o categorie meno rappresentate. Nella ricerca emerge un dato incoraggiante: gli agenti generati a partire da interviste mostrano un divario di prestazioni minore rispetto a quelli che usano soltanto attributi demografici. Se si guarda al Demographic Parity Difference (DPD) , che misura la differenza di accuratezza tra il gruppo più e meno favorito, i modelli basati su interviste riducono il gap in modo significativo, scendendo per esempio dai 12,35 punti percentuali di disparità sugli estremi politici a circa 7,85. Una tendenza simile si riscontra anche per variabili razziali, sebbene il margine di miglioramento, in alcuni casi, risulti più contenuto. Questa dinamica si spiega con la natura stessa delle interviste qualitative, che permettono all’agente di attingere a una varietà di contenuti personali, sottraendosi alla semplificazione del “tipico profilo”. Nel caso di agenti costruiti su semplici categorie di genere, età o collocazione ideologica, il modello linguistico tende a riprodurre immagini tipiche, per forza di cose incomplete, non catturando la complessità individuale. Al contrario, se un individuo di un certo gruppo minoritario ha un’esperienza specifica raccontata nell’intervista, l’agente basato sul testo ricorderà proprio quel vissuto, attenuando il rischio di generalizzazione. La ricerca propone anche un sistema di “banca di agenti” progettato per rendere disponibili questi profili virtuali alla comunità scientifica. L’idea è offrire un accesso su due livelli: uno più aperto, con dati aggregati, per consentire a ricercatori di esplorare le tendenze generali senza violare la privacy dei partecipanti; un altro più restrittivo, con autorizzazioni specifiche per domande aperte e accesso alle singole risposte. Questo secondo livello servirebbe per chi, ad esempio, intenda eseguire simulazioni particolarmente dettagliate o provare nuovi protocolli sperimentali, avendo bisogno di interagire con i singoli agenti in maniera personalizzata. Saranno però necessarie procedure di sorveglianza, log di controllo e limitazioni per usi commerciali, così da non ledere i diritti degli intervistati. Dal punto di vista applicativo, si intravvedono varie prospettive. Sul piano delle scienze sociali, simulare un migliaio di individui a partire da interviste vere potrebbe aiutare a formulare ipotesi su come diversi segmenti di popolazione reagirebbero a un certo evento, come una nuova proposta di legge o una crisi sanitaria. Si potrebbe analizzare l’effetto di gruppi di agenti su reti sociali virtuali, esplorando la polarizzazione delle idee o la propagazione di informazioni. Nel contesto del marketing e delle ricerche di mercato, un’azienda potrebbe desiderare di “interrogare” gli agenti per capire tendenze di acquisto, fermo restando che tali agenti rappresentano un’istantanea nel tempo e non un aggiornamento dinamico. Allo stesso tempo, la ricerca invita alla prudenza. Sebbene i risultati siano incoraggianti e mostrino un buon allineamento tra agenti e partecipanti reali, nessuna simulazione può sostituire in modo definitivo lo studio diretto su campioni umani, soprattutto se l’ambiente sociale e informativo cambia. Il vantaggio degli agenti di “Generative Agent Simulations of 1,000 People” è di offrire un punto di partenza per la prototipazione di ipotesi di ricerca, un laboratorio virtuale in cui sperimentare, con costi minori e tempi più rapidi, l’impatto di determinati input. Ma ogni conclusione di rilievo deve essere, a parere degli autori, corroborata da verifiche sul campo e da un riesame costante dell’attualità e della validità delle informazioni contenute nelle trascrizioni. Un altro aspetto strategico è la possibilità di ampliare lo studio coinvolgendo popolazioni diverse o interviste specializzate su temi di nicchia. Se il protocollo di intervista si focalizzasse su un gruppo ristretto, per esempio persone che lavorano in un settore sanitario specifico, allora gli agenti risultanti potrebbero fornire proiezioni molto dettagliate sulle politiche ospedaliere. Al contrario, la diversificazione massima (come nello studio su popolazione generale) offre un quadro più ampio, ma meno profondamente mirato. In ogni caso, la chiave di questi agenti è la ricchezza delle loro interviste, che devono essere pianificate per estrarre la complessità della vita umana senza incorrere in troppe ridondanze. Conclusioni Gli esiti di “Generative Agent Simulations of 1,000 People” suggeriscono che la combinazione di interviste qualitative approfondite e modelli linguistici di ampia scala possa delineare scenari di simulazione umana piuttosto verosimili. L’accuratezza raggiunge livelli notevoli nelle risposte a questionari come il GSS o nel calcolo di tratti di personalità, e persino nei giochi economici e negli esperimenti di psicologia sociale si evidenzia una coerenza collettiva degli agenti molto vicina a quella rilevata su individui reali. Tuttavia, in una prospettiva manageriale o imprenditoriale, non bisogna attendersi che tali agenti diventino un sostituto perfetto delle indagini sul campo. Il contesto sociale evolve, e le informazioni contenute nelle interviste sono pur sempre una fotografia statica, destinata a invecchiare. La riflessione strategica, allora, verte sulla possibilità di usare questi agenti come primo banco di prova per testare ipotesi di comunicazione o di policy. Se un’azienda o un’istituzione desiderasse capire come un determinato segmento della popolazione potrebbe reagire a un nuovo prodotto, potrebbe condurre una simulazione iniziale con centinaia di agenti “personalizzati”, ottenendo indicazioni su possibili risposte, conflitti o divergenze. A quel punto, si procederebbe a una sperimentazione più tradizionale, mirata e meno estesa, ottimizzando tempi e costi. O ancora, si potrebbero indagare dinamiche di gruppo, ad esempio la formazione di correnti di opinione, in un ambiente virtuale. Questa prospettiva, sebbene realistica, va comunque affiancata a un controllo continuo sulla provenienza e l’aggiornamento dei dati: se i testi di intervista sono troppo vecchi o se contengono lacune, la simulazione restituirà risultati incompleti o distorti. Se si confronta questo approccio con altri strumenti di simulazione già disponibili, si nota che i generative agents offrono una granularità notevolmente maggiore, perché ancorano ogni agente a un individuo reale invece che a un generico costrutto. Tuttavia, restano aperte questioni su come la personalità e le scelte del partecipante possano cambiare nel tempo, problema che i modelli statici non gestiscono. In più, esistono già tecnologie che “fanno cose simili” in modo più semplice, come i classici modelli di preferenza in ambito marketing o i simulatori di comportamento elettorale. Questi ultimi, però, raramente integrano una dimensione testuale così ricca, tale da restituire reazioni a proposte e scenari complessi. Il lavoro qui presentato aggiunge dunque nuove potenzialità, ma richiede anche cautela, un controllo etico rafforzato e una manutenzione continua dei dati. In una visione di più lungo periodo, si potrebbe immaginare di estendere l’approccio a contesti internazionali o di integrare nuove metodologie di raccolta, come interviste condotte in presenza o l’inclusione di informazioni biometriche e storici dei social media, purché autorizzati. Si tratterebbe di un ulteriore passo verso simulazioni ancora più aderenti alle persone, con il rischio, però, di problemi di privacy ancor maggiori. Gli autori del lavoro ricordano l’importanza di un sistema di governance responsabile, capace di bilanciare trasparenza dei dati, tutela degli intervistati e necessità di consentire ricerche innovative. La direzione sembra dunque chiaramente tracciata: l’uso di agenti generati da interviste potrebbe portare a un’analisi più sottile delle dinamiche umane, offrendo riscontri veloci e abbattendo alcuni ostacoli logistici. Resta però indispensabile ricordare che ogni simulazione va maneggiata con la consapevolezza dei suoi limiti e dell’impossibilità di prevedere con certezza assoluta il comportamento umano reale. Podcast: https://creators.spotify.com/pod/show/andrea-viliotti/episodes/Generative-Agent-Simulations-dinamiche-di-intervista-e-applicazioni-nelle-scienze-sociali-e2spv8b Fonte: https://arxiv.org/abs/2411.10109
Human Creativity and Artificial Intelligence: Boundaries and New Perspectives
“A.I. Isn’t Genius. We Are.” by Christopher Beha, referencing Roland Barthes and Pierre Bourdieu, appeared in the pages of The New York Times. The investigation takes its cue from today’s discussion around large language models, highlighting how human creativity and artificial intelligence have sparked both fears and hopes, examining the cultural roots that uphold concepts of individual ingenuity, and considering the possibility that technology might surpass talent. The analysis revolves around an essential question: How much does the human factor truly matter in the birth of innovative solutions, and how much are such solutions instead an expression of social, economic, and cognitive processes? Human Creativity and Artificial Intelligence: Boundaries and New Perspectives Human Creativity and the Artificial Intelligence Debate: Fears and Potential The controversy pitting supporters of artificial intelligence against its more critical observers found one of its symbolic starting points in the release of ChatGPT two years ago. Since then, considerable debate has focused on the risk of losing the distinctive trait of creativity we usually attribute to individuals. Some foresee the end of what is called human exceptionalism, imagining a world in which computers and algorithms outdo every form of imagination and originality. The worry is that songs, paintings, novels, and design projects might end up becoming indistinguishable from those created by professionals, marking the disappearance of the human dimension in the arts and the conception of new ideas. This fear has been fueled by interpretations that overemphasize the power of computational models and, more importantly, by a cultural tendency to implicitly and gradually underestimate what humans are truly capable of doing. To fully understand the causes of this underestimation, we need to examine how, as early as the second half of the twentieth century, we witnessed a deconstruction of the idea of the “author.” In his famous 1967 essay, “The Death of the Author,” critic Roland Barthes argued that every text was the outcome of an interweaving of preexisting writings and that no individual truly held a creative primacy. Within a post-structuralist perspective, cultural production is interpreted as the result of historical, political, and economic dynamics that influence one another, leaving little room for an authentic individual contribution. In this vision, the author appears to be a conduit through which already-structured ideas are expressed, thus diminishing the concept of “genius” understood as the source of extraordinarily original creations. On the one hand, there was a desire to counteract an excessive mythologizing of art and its creators, but on the other, the result was a flattening of any sense of wonder, as if everything could be reduced to combinations and recombination of existing cultural materials. In his 1979 study “Distinction,” sociologist Pierre Bourdieu stressed how aesthetic tastes are intimately connected to mechanisms of social distinction and how artistic innovation is tied to mechanisms of power rather than to free individual expression. He described culture as the realm of “cultural capital,” with the codes of the elite perpetuating certain hierarchies and marginalizing all else. According to this view, the artist does not create from nothing but rather responds to specific social conventions. A different approach, yet similarly aimed at reducing human autonomy, came from Richard Dawkins’s neo-Darwinian materialism. With his theory of “memes,” he argued that cultural ideas spread almost mechanically. If genes are transmitted through DNA, “memes” circulate in social strata, replicating and adapting in a competitive manner. In other words, every cultural elaboration is simply a passage of preexisting content, and the mind acts as a container that recycles material, not as a furnace where a creative spark is ignited. Within these theories, the last bastion of human exceptionalism seemed to crumble, because the entire sphere of aesthetic and conceptual production was seen as a result of inherited or cultural conditioning. Although these perspectives prompted important reflections on the role of history, biological constraints, and power structures, they also led to a widespread tendency to treat creativity as an illusion. Consequently, over the past decades, we’ve grown accustomed to viewing cinema, music, and literature as macrosystems of repetition. Every new artistic product becomes a remix of genres and codes from the past. Just think of comic-book story universes, the endless reworkings of literary motifs, or the continuous crossovers between musical styles from different eras. On a daily scale, a meme culture has flourished that magnifies the phenomenon: movie scenes, political news, and pop-cultural events immediately become “reusable” material, ready to be distorted, re-edited, and relaunched in a ceaseless flow. In such a flattened environment, the notion that a machine might generate text, images, or melodies is no longer felt to be extraordinary but instead the logical consequence of an ongoing process in which creativity and repetition merge and the distinction between new and old is weakened. With the emergence of language models trained on vast amounts of data, many people have begun to believe that the line separating algorithms and human ingenuity is very thin. Some have declared that the human spark is definitively extinguished. Others, less alarmed, have downplayed the influence of these tools, seeing artificial intelligence as a significant technological innovation rather than humanity’s point of no return. In either case, the emphasis is on underestimating human capabilities and what humans can actually achieve. If we begin with the idea that intellectual production derives solely from combining existing information, then the possibility of a computer reproducing the same mechanisms seems perfectly natural. Conversely, recognizing our capacity to create something genuinely authentic compels us to deeply reconsider the relationship between human creativity and artificial intelligence, especially in the most advanced inventions. Artificial Intelligence and Human Culture The reflection on artificial intelligence extends beyond merely technological aspects or questions of employment; it touches the very foundations of culture, philosophy, and our ability to conceive entirely new ideas. Some readers may wonder whether machine learning systems are merely “enhanced tools” or whether they represent something more significant. The article that informs this discussion puts forth a hypothesis: we shouldn’t be afraid that machines might appropriate our creativity; rather, we should worry about how we ourselves have undermined the idea that human beings possess an imaginative potential not reducible to probabilistic calculations. This conclusion also stems from a tradition reminding us that logic and aesthetics are two poles of the same arc of knowledge. The history of mathematics, philosophy, and the science in general demonstrates that certain individuals have managed to combine analytical skills with contemplative aptitude. The recent development of generative AI systems fits precisely into that long trajectory rooted in formal logic (via figures like Kurt Gödel, John von Neumann, or Alan Turing) and the visionary creativity of programmers and scholars who envisioned a form of computation capable of exploring vast semantic spaces. Every line of code, every mathematical formula or neural network architecture, holds the echo of the ingenuity of those who laid the groundwork in ages past. Consider the geometry of ancient civilizations, Aristotelian logic, or the early mechanical devices designed for calculation. Nothing that is part of the AI domain today was born in a vacuum of creativity; it is all the outcome of a pipeline composed of discoveries, insights, and intellectual exchanges among centuries of researchers and philosophers. Furthermore, one might argue that generative artificial intelligence, with its ability to synthesize texts, images, and ideas from an enormous pool of digitized knowledge, reflects a broader phenomenon: the blending of sciences and humanities. In the past, there have been individuals who personified this union. Leonardo da Vinci’s name, for instance, is emblematic: some place him in the history of engineering due to his mechanical projects, others celebrate him as a painter. Yet the most fascinating aspect is how he moved from scientific observation of the world to artistic invention, from the pure analysis of anatomy to the pictorial representation. Anyone examining AI’s phenomenology with a historical lens might see a fresh, ambitious attempt by humanity to build intellectual tools capable of exploring and unifying different domains of knowledge. This recognition implies admitting that the fears about the eclipse of human genius are often fueled by a misunderstanding: it’s not the machine that threatens our uniqueness, but rather us who fail to properly situate AI as a product of our ingenuity while simultaneously underestimating ourselves as thinking beings. On the contrary, if we realize that every algorithm, every neural network, and every deep learning module derives from complex processes of human development and creativity, then it becomes evident that the supposed contest between humans and AI is largely meaningless. AI is a collective, choral creation that merges the passion of physicists, engineers, linguists, and philosophers, along with the humanistic dimension of those who imagine new solutions to old problems. Some hold that in practical terms, rising automation is disrupting entire fields of knowledge and labor. To an extent, that’s true: technology changes existing balances, shifts skill sets, and creates new spaces for innovation. Yet the value of this transformation cannot be reduced to simply tallying what is lost and what is gained, because the widespread adoption of an AI system always reflects the desire to test the limits of what is possible. Between the end users and the developers exists a chain of expertise that stretches back to remote times and takes shape in today’s software—an ongoing flow of ideas that propels humanity forward. We must also remember that AI does not operate in a regulatory or ethical vacuum. Humans set parameters, select data, write guidelines, and define objectives. The great promise of systems like ChatGPT also lies in their capacity to raise questions about how we construct knowledge, compelling us to reflect on the origins of content and how it may be used. This awareness portrays AI as a continuous interlocutor, rather than an enemy. The echoes of collective fears mingle with the allure of a work that ultimately arises from the same spirit that led to the major technological achievements of the past. Human Genius and AI: An Evolving Relationship For many centuries, the concept of genius played a central role in defining what makes it possible to produce extraordinary works. The genealogy of this idea dates back to antiquity, when Socrates spoke of a “daimonion” that guided his conduct, or to Christian mystics identifying a personal connection with the divine, or still further to Enlightenment thinkers who tried to secularize the notion of inspiration. In Immanuel Kant’s view, great art came from the individual capable of creating his own rules, rather than following those already established. Romanticism then promoted the image of the author drawing on profound intuition to realize masterpieces, while mathematics was viewed as a systematic, methodical discipline. Yet the twentieth century reminded us that even in rigorous scientific fields like physics or logic, there are moments when intuitive leaps overturn established certainties, yielding unexpected solutions. This notion of genius has been challenged from multiple angles: concerns about venerating false masters, the realization that so-called “great men” of history often benefited from privileged backgrounds, or the fact that they could commit destructive acts—all of these undermined trust in the concept. More recently, public discourse has celebrated figures like Bill Gates, Steve Jobs, and Elon Musk as “geniuses” for turning technological intuitions into economic empires, an equation that ambiguously conflates financial success with authentic innovation. The collateral effect is a further dilution of the term “genius,” as it becomes associated with managerial skills or with cutthroat economic competitiveness. However, the critical issue is not the casual use of the word but rather the loss of trust in the possibility that sometimes someone can think outside the box, going beyond the mere sum of existing notions to produce genuinely novel creations. Here the AI question fits perfectly. In fearing that neural networks might exceed human capacities, we sense a collective defeat: if we are merely systems that process and combine information, then there is no distinction between humans and machines—which might even outperform us in every domain. Yet it is essential to invert this viewpoint, noting that machine learning models do not represent an abstract or independent reality but rather the concrete result of an engineering process built through a lengthy path of human commitment and work. When we ask whether machines will truly replicate the deepest qualities of humanity, we should recall that algorithms do not develop authentic inspiration; they execute probabilistic models. Although computational power allows for wide-ranging variations and combinations, generating surprising texts, images, and sounds, the driving force behind these combinations remains the information we provide. No neural network has ever awakened with the awareness to ponder existential questions or discover an absolute ethical principle beyond what it was programmed to do. This perspective does not aim to diminish AI, but rather to redefine the scale of roles. Thinking of artificial intelligence as a “foe” of creativity is contradictory because technology embodies the work of generations of researchers, artists, and thinkers who dedicated their lives to designing and refining mechanisms capable of processing information. If fear emerges, it is because we perceive in these systems the possibility that they could rival us in areas we consider “sacred” or distinctly human, such as writing novels or composing music. In reality, what resonates is the ancestral fear humans have of themselves: the reflection falls on how we use our own inventions, what responsibilities we assume in programming them, and what goals we pursue. At the same time, AI demonstrates how humans, with their capacity for abstraction and imagination, can create digital “creatures” able to traverse countless fields of knowledge. Such results were once the domain of a few extraordinary figures—like Leonardo da Vinci, who united mathematics and art, philosophical reflection, and the invention of machines. Today, that aspiration to unify knowledge is expressed in the construction of generative models that tap into every segment of available expertise. It is a prospect that should inspire fascination more than anxiety, showing how the human mind, even collectively, can conceive structures of great versatility. If history teaches us anything, it is that technological leaps forward become opportunities to reflect on our place in the universe. Thus, the real “competitor” may not be the machine at all but our own mental laziness, our reluctance to resume a conversation about inspiration and creative impetus in a way that goes beyond economic calculations or scientific oversimplifications. Conclusions The evidence gathered points to a more measured perspective than the most catastrophic tones might suggest. The genuine risk is not that artificial intelligence will wipe out our creativity, but that we might abandon our recognition of the mind’s generative power, delegating even our last glimmer of curiosity to sophisticated machines. In the current scenario, many technologies already exist with functions similar to those of large language models, though without the accompanying clamor: from data analysis systems in the business world to simulation software in engineering. When placed side by side, the evolutionary leap in deep learning models appears significant, yet can be situated within a long tradition of technical achievements. The crucial factor lies in identifying the implications for businesses and society: understanding that AI is neither a facile replacement for thought, nor an autonomous monster allows managers and entrepreneurs to more soberly assess the introduction of such tools. Every innovation must be governed by clear regulations, proper staff training, and a strategic approach that takes ethical and cultural dimensions into account. The environment in which we operate already includes similar technologies assisting organizations for years, but today’s debate provides an opportunity for a more far-reaching and inclusive vision: those investing in AI gradually discover that behind a piece of software lies an unbroken chain of expertise, the result of an ancient fusion between mathematics and the creative spirit. In an era, intent on cutting costs, from staffing to basic research, it becomes crucial to preserve that spark of inspiration which has always made the difference between a merely replicative technology and one that genuinely benefits humanity. The prods of these models do not close any doors to collaboration among ideas, nor does it invalidate art or literature; rather, it expands our potential for achievement if we begin to believe again in our capacity to ask radical questions. Looking ahead, comparisons between AI and similar systems already in use will reveal increasingly sophisticated forms of integration, while also leaving room for new dilemmas about the nature of learning and the meaning of “thinking.” Many companies will find themselves reevaluating their decision-making processes, discovering they need individuals capable of connecting data with sensitivity to the human dimension. In a certain sense, this will require reclaiming something very ancient: a careful attention to one’s own interiority and environment, so as to perceive when a hunch deserves to be fostered until it becomes a disruptive market idea. This is not about idolizing AI, but about placing it within a broader framework of shared creativity. Indeed, the genuine added value of these systems does not lie in the perfection of their algorithms but rather in our willingness to reflect, experiment, and embrace that dimension of the mind where intuition can become a flash of novelty. It is an invitation to combine scientific and humanistic culture in a serious way, to see computers as extensions of our quest for knowledge rather than adversaries. In a marketplace where competition drives the adoption of increasingly sophisticated solutions, the strategic difference may lie precisely in the awareness that behind every line of code there flows the plural history of humanity, and that the next steps demand both technical rigor and creative courage. Podcast: https://creators.spotify.com/pod/show/andrea-viliotti/episodes/Human-Creativity-and-Artificial-Intelligence-Boundaries-and-New-Perspectives-e2spk1k Source: https://www.nytimes.com/2024/12/26/opinion/ai-genius-art.html
Creatività umana e intelligenza artificiale: confini e nuove prospettive
“A.I. Isn’t Genius. We Are.” di Christopher Beha, con riferimenti a Roland Barthes e Pierre Bourdieu, è apparso sulle pagine del The New York Times . L’indagine prende spunto dall’odierna discussione sui grandi modelli linguistici, mostrando come la creatività umana e l’intelligenza artificiale abbiano generato timori e speranze, sulle radici culturali che sostengono i concetti di ingegno individuale e sulla possibilità che la tecnologia possa superare il talento. L’analisi ruota intorno a una questione essenziale: quanto conta davvero l’azione dell’uomo nella nascita di soluzioni innovative, e quanto invece queste soluzioni sono espressione di processi sociali, economici e cognitivi? Creatività umana e intelligenza artificiale: confini e nuove prospettive Creatività umana e intelligenza artificiale: paure e potenzialità La vicenda che vede opposti i promotori dell’ intelligenza artificiale e i più critici verso questa tecnologia ha trovato uno dei suoi avvii simbolici con l’uscita di ChatGPT due anni fa. Da allora si è discusso a lungo sul rischio di perdere quel tratto peculiare di creatività che si è soliti attribuire agli individui. Alcuni paventano la fine della cosiddetta eccezionalità dell’uomo, prospettando un contesto in cui computer e algoritmi sorpassano ogni forma di immaginazione e originalità. Si teme che canzoni, dipinti, romanzi e progetti di design finiscano per essere indistinguibili da quelli creati da professionisti, segnando la scomparsa dell’umano nelle arti e nell’ideazione di nuovi concetti. Questo timore è stato alimentato da interpretazioni che esaltano troppo il potere dei modelli computazionali, ma soprattutto da una tendenza culturale a sottovalutare, in modo implicito e graduale, ciò che l’uomo sa effettivamente fare. Per comprendere fino in fondo le cause di questa sottovalutazione, è indispensabile guardare a come, già nella seconda metà del Novecento, si sia portata avanti una decostruzione dell’idea di “autore”. Il critico Roland Barthes nel suo celebre saggio del 1967, “La morte dell’autore”, sosteneva che ogni testo era frutto di un intreccio di scritture preesistenti e che nessun individuo avesse un effettivo primato creativo. Nella prospettiva poststrutturalista, la produzione culturale viene interpretata come il frutto di dinamiche storiche, politiche ed economiche che si influenzano reciprocamente, lasciando scarsa possibilità a un autentico contributo individuale. In questa visione, l’autore appare come un mezzo attraverso il quale si esprimono idee già strutturate, ridimensionando il concetto di "genio" inteso come fonte di creazioni straordinariamente originali. Da un lato, quindi, c’è stata la volontà di reagire a un eccesso di mitizzazione dell’arte e di chi la crea, ma dall’altro si è finiti per appiattire ogni possibilità di meraviglia, come se tutto fosse riconducibile a combinazioni e ricombinazioni di materiali culturali esistenti. Il sociologo Pierre Bourdieu , nel suo studio “Distinction” del 1979, ha insistito su come i gusti estetici siano intimamente connessi ai meccanismi di distinzione sociale e come l’innovazione artistica rientri in meccanismi di potere più che di libera espressione individuale. Egli descriveva la cultura come il regno del “capitale culturale”, con i codici dell’élite che tengono in vita determinate gerarchie e lasciano a margine tutto il resto. L’artista, secondo questa chiave, non crea dal nulla, ma risponde a precise convenzioni sociali. Un approccio diverso, ma convergente nell’idea di ridurre l’autonomia dell’essere umano, è venuto dal materialismo neodarwiniano di Richard Dawkins . Con la teoria dei “memi”, egli ha sostenuto che le idee culturali si propagano in modo quasi meccanico. Se i geni si trasmettono attraverso il DNA, i “memi” circolano negli strati sociali, replicandosi e adattandosi in maniera competitiva. In altre parole, ogni elaborazione culturale sarebbe un semplice passaggio di contenuti preesistenti, e la mente fungerebbe da contenitore che ricicla materiali, non da fornace in cui nasce un fuoco creativo. Dentro a queste teorie, è sembrato crollare l’ultimo baluardo di eccezionalità umana, perché tutta la sfera della produzione estetica e concettuale veniva interpretata come frutto di condizionamenti ereditari o culturali. Queste impostazioni, sebbene abbiano portato a importanti riflessioni sul ruolo della storia, dei vincoli biologici e dei contesti di potere, hanno anche generato una diffusa tendenza a trattare la creatività come un’illusione. La conseguenza è che, negli ultimi decenni, ci si è abituati a vedere il cinema, la musica e la letteratura come macrosistemi di ripetizioni. Ogni nuovo prodotto artistico diventa un remix di generi e codici del passato. Basti pensare agli universi narrativi dei fumetti, alle infinite rivisitazioni di motivi letterari, o alle continue contaminazioni tra stili musicali di epoche diverse. Su scala quotidiana, si è poi diffusa una cultura dei meme che amplifica il fenomeno: scene di film, notizie politiche, fatti di costume diventano subito materiali “riusabili”, pronti per essere distorti, rieditati e rilanciati in un flusso incessante. In uno scenario così appiattito, l’idea che una macchina possa generare testi, immagini o melodie non è più avvertita come straordinaria, bensì come la logica conseguenza di un processo già in atto, dove creatività e ripetizione si fondono e la distinzione tra nuovo e antico si indebolisce. Con l’emergere di modelli linguistici addestrati su enormi quantità di dati, molte persone hanno iniziato a credere che la linea di demarcazione tra l’algoritmo e l’ingegno umano fosse molto sottile. Alcuni hanno gridato a una scomparsa definitiva della scintilla umana. Altri, meno allarmati, hanno ridimensionato l’influenza di questi strumenti, considerando l’ intelligenza artificiale un’innovazione tecnologica rilevante, ma non il punto di non ritorno dell’umanità. Il focus, in entrambi i casi, è sulla sottovalutazione dell’uomo e di ciò che l’uomo può davvero fare. Se si parte dall’idea che la produzione intellettuale derivi soltanto dal combinare informazioni esistenti, la possibilità che un computer riproduca gli stessi meccanismi diventa perfettamente naturale. Invece, la consapevolezza della nostra capacità di creare qualcosa di autentico ci spinge a riconsiderare in profondità la relazione tra creatività umana e intelligenza artificiale , specialmente nelle invenzioni più avanzate. Intelligenza artificiale e cultura umana La riflessione circa l’ intelligenza artificiale non riguarda soltanto gli aspetti meramente tecnologici o le questioni di lavoro, ma tocca i fondamenti stessi della cultura, della filosofia e della capacità di concepire idee inedite. Alcuni lettori potrebbero chiedersi se i sistemi di machine learning siano semplici “strumenti potenziati” o se rappresentino qualcosa di più incisivo. L’articolo da cui muove questa analisi avanza un’ipotesi: non dovremmo temere che le macchine si approprino della nostra creatività, ma piuttosto preoccuparci di quanto noi stessi abbiamo demolito l’idea che l’essere umano abbia un potenziale immaginativo non riducibile a calcoli probabilistici. Questa conclusione nasce anche da una tradizione che ci ricorda come la logica e l’ estetica siano due poli di un medesimo arco di conoscenza. Lo dimostra la storia della matematica, della filosofia e delle scienze in generale, in cui alcuni individui hanno saputo coniugare capacità analitiche e attitudini contemplative. Il recente sviluppo di sistemi di intelligenza artificiale generativa rientra proprio in quella lunga traiettoria che affonda le radici nella logica formale (attraverso figure come Kurt Gödel, John von Neumann o Alan Turing) e nella creatività visionaria di programmatori e studiosi che hanno immaginato una forma di calcolo capace di esplorare vasti spazi semantici. Ogni riga di codice, ogni formula matematica o architettura di rete neurale, custodisce l’eco dell’ingegno di chi ha gettato le basi in epoche lontane. Si pensi alle geometrie di antiche civiltà, alla logica aristotelica, o alle prime macchine meccaniche progettate per il calcolo. Nulla di ciò che oggi rientra nel calderone dell’AI è nato in un vuoto di creatività: è tutto frutto di una filiera fatta di scoperte, intuizioni e scambi intellettuali fra secoli di ricercatori e filosofi. Oltretutto, si può affermare che l’ intelligenza artificiale generativa, nella sua capacità di sintetizzare testi, immagini e idee da un enorme bacino di conoscenze digitalizzate, sia lo specchio di un fenomeno più ampio: la fusione tra scienze e discipline umanistiche. In passato, abbiamo già avuto figure in grado di rappresentare questa unione. Il nome di Leonardo da Vinci è un esempio emblematico: alcuni lo collocano nella storia dell’ingegneria grazie ai suoi progetti meccanici, altri lo celebrano come pittore. Eppure, l’aspetto che più affascina è il modo in cui egli riusciva a passare dall’osservazione scientifica del mondo all’invenzione artistica, dalla pura analisi anatomica alla trasposizione pittorica. Chi osserva la fenomenologia dell’AI con uno sguardo storico potrebbe intravedere un nuovo, ambizioso tentativo dell’umanità di costruire strumenti intellettuali capaci di esplorare e unificare domini del sapere diversi tra loro. Ciò implica riconoscere che i timori sull’eclissi del genio umano sono spesso alimentati da un fraintendimento: non è la macchina a insidiarsi nella nostra unicità, siamo noi che, da un lato, la priviamo di una corretta collocazione come prodotto dell’ ingegno e, dall’altro, ci sottostimiamo come essere pensanti. Se, al contrario, riconosciamo che ogni algoritmo, ogni rete neurale e ogni modulo di deep learning derivano da complessi percorsi di elaborazione e creatività umana, allora appare chiaro come la presunta gara tra uomo e AI abbia poco senso. L’AI è un frutto collettivo, corale, che unisce la passione di fisici, ingegneri, linguisti e filosofi, così come la sfera umanistica di chi immagina soluzioni inedite per problemi antichi. Alcuni ritengono che, dal punto di vista pratico, la crescente automazione spiazzi interi settori della conoscenza e del lavoro. In parte, questo è vero: la tecnologia modifica equilibri preesistenti, trasferisce competenze e crea nuovi spazi di innovazione. Eppure, il valore di questa metamorfosi non può ridursi a un semplice conteggio di ciò che si perde e di ciò che si guadagna, perché l’adozione su larga scala di un sistema di AI riflette sempre la tensione a saggiare i limiti del possibile. Tra i fruitori finali e gli sviluppatori esiste una catena di saperi che prosegue da tempi remoti e che si manifesta nel software dei nostri giorni, una continuità di idee che spinge avanti l’ umanità . Occorre anche considerare che l’AI non agisce in un vuoto normativo o etico. Sono gli esseri umani a impostare parametri, selezionare i dati, scrivere linee guida e definire obiettivi. La grande promessa di sistemi come ChatGPT sta anche nella capacità di sollevare interrogativi sul nostro modo di costruire la conoscenza, costringendoci a ragionare sulla provenienza dei contenuti e sull’uso che se ne può fare. Questa consapevolezza ci mostra l’AI come un interlocutore costante, ma non come un nemico. L’eco delle paure collettive si mescola al fascino di un’opera che, in fin dei conti, nasce dal medesimo spirito che ha portato alle grandi innovazioni del passato. Genio umano e AI: una relazione in evoluzione Per molti secoli, il concetto di genio ha rivestito un ruolo centrale nella definizione di ciò che consente la nascita di opere straordinarie. La genealogia di questa idea viene dagli antichi, quando Socrate parlava di un “daimonion” che gli suggeriva la condotta, o dai mistici cristiani che identificavano un contatto personale con il divino, o ancora dai pensatori illuministi che tentarono di secolarizzare la nozione di ispirazione. Nella visione di Immanuel Kant , la grande arte scaturiva dall’individuo capace di creare le proprie regole, non di seguire quelle già scritte. Nel Romanticismo si affermò l’immagine dell’autore che attinge dall’intuizione più profonda per realizzare capolavori, mentre la matematica veniva vista come una disciplina schematica e metodica. Eppure, lo stesso Novecento ci ha ricordato che perfino in ambiti scientifici rigorosi, come la fisica o la logica, si presentano momenti in cui lo slancio intuitivo ribalta le certezze consolidate, regalando soluzioni inaspettate. Quest’idea del genio è stata problematizzata da più parti: i timori di venerare falsi maestri, la constatazione che i cosiddetti “grandi uomini” della storia spesso venissero sopravvalutati grazie al proprio contesto privilegiato, o che non fossero esenti da comportamenti distruttivi, hanno minato la fiducia in questa nozione. Più di recente, la scena pubblica ha esaltato personaggi come Bill Gates, Steve Jobs o Elon Musk, definendoli “geni” perché capaci di trasformare intuizioni tecnologiche in imperi economici, un’equazione che sovrappone in modo ambiguo l’idea di successo finanziario a quella di autentica innovazione. L’effetto collaterale è un ulteriore svuotamento del termine “genio”, perché lo si identifica con abilità manageriali o con forme esasperate di competitività economica. Il punto critico, però, non è l’uso disinvolto della parola, ma piuttosto la perdita di fiducia nella possibilità che qualcuno, a volte, vada oltre lo schema, superando la mera somma di nozioni già consolidate per realizzare creazioni inedite. Qui si inserisce perfettamente la questione dell’ intelligenza artificiale . Nel timore che le reti neurali superino le capacità umane, emerge una percezione di sconfitta condivisa: se siamo semplicemente sistemi che elaborano e combinano informazioni, allora non vi sarebbe alcuna distinzione tra esseri umani e macchine, le quali potrebbero addirittura prevalere in ogni ambito. È però fondamentale ribaltare questa visione, considerando che i modelli di apprendimento automatico non rappresentano una realtà astratta o indipendente, ma costituiscono il risultato concreto di un processo ingegneristico costruito grazie a un lungo percorso di impegno e lavoro umano. Quando ci domandiamo se le macchine potranno davvero imitare la qualità più profonda dell’ umanità , dovremmo recuperare la consapevolezza che gli algoritmi non sviluppano autentica ispirazione, ma eseguono schemi probabilistici. La potenza del calcolo consente variazioni e combinazioni molto ampie, e può produrre testi, immagini e suoni sorprendenti, ma il motore di queste combinazioni resta ancorato alle informazioni che forniamo. Nessuna rete neurale si è mai svegliata con la consapevolezza di porre domande esistenziali o di individuare un valore etico assoluto al di là di ciò che è stato programmato. Questa considerazione non mira a sminuire l’AI, ma a ridefinire la scala dei ruoli. Pensare all’ intelligenza artificiale come a un “nemico” della creatività è una contraddizione, perché la tecnologia incarna l’opera di generazioni di ricercatori, artisti e pensatori che hanno dedicato la vita a progettare e perfezionare meccanismi capaci di elaborare informazione. Se la paura si affaccia all’orizzonte, è perché intravediamo in questi sistemi la possibilità di competere con noi in settori che riteniamo “sacri” o comunque tipicamente umani, come la scrittura di romanzi o la composizione musicale. In realtà, quello che risuona è il timore ancestrale dell’uomo verso sé stesso: la riflessione ricade su come impieghiamo le nostre invenzioni, quali responsabilità abbiamo nel programmarle e quali obiettivi perseguiamo. Al tempo stesso, l’AI mostra come l’essere umano, con la propria capacità di astrazione e immaginazione, possa realizzare “creature” digitali capaci di spaziare su moltissimi ambiti del sapere. Simili risultati erano esclusiva di poche figure straordinarie, come appunto Leonardo da Vinci, che tenevano insieme la matematica e l’arte, la riflessione filosofica e la capacità di creare macchine. Oggi, quell’aspirazione a unificare i saperi si manifesta nel costruire modelli generativi che attingono a ogni segmento della conoscenza disponibile. È una prospettiva che dovrebbe suscitare fascinazione più che angoscia, perché ci fa vedere quanto la mente umana, anche in modalità collettiva, riesca a concepire strutture così versatili. Se la storia ci insegna qualcosa, è che i salti in avanti della tecnologia diventano occasioni per riflettere sul nostro ruolo nell’universo. Quindi, il reale “competitor” potrebbe non essere la macchina, bensì la nostra pigrizia mentale, la nostra paura di riprendere un discorso sull’ ispirazione e sullo slancio creativo che non si riduca a conti economici o semplificazioni scientifiche. Conclusioni Le informazioni raccolte suggeriscono una prospettiva più distesa di quanto i toni più catastrofici possano far credere. Il vero rischio non è che l’ intelligenza artificiale spazzi via la nostra creatività, ma che noi rinunciamo a riconoscere la portata generativa della mente umana, finendo per delegare a macchine sofisticate anche l’ultimo barlume di curiosità. Nel quadro attuale, molte tecnologie esistono già con funzioni simili a quelle dei grandi modelli linguistici, pur senza clamore: dai sistemi di data analysis in ambito aziendale ai software di simulazione in ingegneria. Il salto evolutivo dei modelli di deep learning, se confrontato con quelli già presenti, rivela un impatto importante, ma collocabile in una lunga tradizione di conquiste tecniche. L’aspetto cruciale sta nell’individuare le implicazioni per il mondo delle imprese e per la società: comprendere che l’AI non è né un semplificante sostituto del pensiero, né un mostro autonomo, consente a manager e imprenditori di valutare con maggior lucidità l’introduzione di certi strumenti. Ogni innovazione va governata con normative chiare, con formazione adeguata del personale e con una riflessione strategica che includa aspetti etici e culturali. Il panorama in cui ci muoviamo è ricco di tecnologie similari che affiancano le organizzazioni da anni, ma il dibattito odierno permette di raggiungere una visione più ampia e coinvolgente: chi investe in AI scopre gradualmente che dietro a un software c’è una catena ininterrotta di competenze, frutto di un’antica fusione tra matematica e spirito creativo. In un tempo in cui si cerca di risparmiare su tutto, dal personale alla ricerca di base, diventa strategico preservare la fiamma di quell’ ispirazione che ha sempre fatto la differenza fra una tecnologia soltanto replicativa e una che sia veramente utile all’umanità. Il progresso di questi modelli non chiude nessuna porta alla collaborazione tra le idee, non invalida l’arte o la letteratura, ma allarga le potenzialità di ciò che possiamo realizzare se riprendiamo a credere nella capacità di fare domande radicali. Negli scenari futuri, il confronto tra l’AI e i sistemi analoghi già in uso mostrerà forme di integrazione sempre più sofisticate, ma lascerà aperti anche nuovi dilemmi sulla natura dell’apprendimento e sul significato di “pensare”. È probabile che molte imprese si troveranno a riconsiderare i propri processi decisionali, scoprendo di avere bisogno di figure capaci di connettere i dati con la sensibilità per l’umano. Forse, in un certo senso, si tratterà di recuperare qualcosa di molto antico: un ascolto attento dell’interiorità e del contesto, per percepire quando un’intuizione merita di essere coltivata fino a diventare un’idea dirompente sul mercato. Non si tratta di idolatrare l’AI, ma di inserirla in un quadro più ampio di creatività condivisa. A ben vedere, l’autentico valore aggiunto di questi sistemi non risiede nella perfezione dell’algoritmo, ma nella nostra volontà di riflettere, sperimentare e aprirci a quella dimensione della mente in cui l’intuizione può farsi lampo di novità. È un invito a combinare cultura scientifica e umanistica in modo non superficiale, a guardare i computer come estensioni del nostro slancio conoscitivo, non come rivali. In un mercato dove la concorrenza spinge a adottare soluzioni sempre più sofisticate, la differenza strategica potrebbe nascondersi proprio nella consapevolezza che dietro ogni riga di codice c’è la storia plurale dell’ umanità che scorre, e che per compiere i prossimi passi occorre tanto rigore tecnico quanto coraggio creativo. Podcast: https://creators.spotify.com/pod/show/andrea-viliotti/episodes/Creativit-umana-e-intelligenza-artificiale-confini-e-nuove-prospettive-e2spjs1 Fonte: https://www.nytimes.com/2024/12/26/opinion/ai-genius-art.html
Artificial Intelligence in Defense: Ethical Dynamics, Strategic Challenges, and Future Perspectives
“JSP 936 V1.1 Dependable Artificial Intelligence (AI) in Defence Part 1: Directive” is the title of the most recent Defense directive developed by Alison Stevenson (Director General Delivery & Strategy, Ministry of Defence) together with the Defence AI and Autonomy Unit (DAU) and Defence AI Centre (DAIC), in collaboration with the UK Ministry of Defence. The document focuses on the implementation of Artificial Intelligence in the military sphere, aiming for the safe and responsible use of innovative technologies. Its main objective is to provide clear directives on how to develop innovative algorithms and models, ensuring transparency, regulatory compliance, and ethical standards. Artificial Intelligence in Defense: Ethical Dynamics, Strategic Challenges, and Future Perspectives Artificial Intelligence in Defense: Opportunities and Responsibilities The Artificial Intelligence in Defense directive highlights its role as a transformative force, impacting every facet of modern military operations. The theoretical foundations of the document suggest that adopting AI in different Defense segments—from logistics to decision-making support in complex operational environments—can increase both effectiveness and speed of action. At the same time, it is explicitly highlighted that the widespread diffusion of the technology must be balanced with a high level of control and accountability, in order to protect not only military personnel but also civilians and the integrity of the systems themselves. The importance of a strategic vision for AI also stems from experiences gained in recent years. The evolution of AI clearly shows the speed of development achieved by Machine Learning and Deep Learning algorithms, especially in areas such as computer vision and natural language processing. On the other hand, Defense has realized that the possibilities offered by AI are not limited to computing power but extend to the entire international security scenario, considering the potential vulnerabilities introduced by targeted cyberattack techniques, such as data poisoning or manipulation of models trained on unreliable datasets. Precisely for this reason, the concept of the Operating Design Domain (ODD) in the Artificial Intelligence in Defense directive outlines specific requirements for safe AI deployment. Defining the scope of use for an algorithm or model is not merely a technical exercise; it becomes the foundation for understanding risks and planning appropriate protective measures. If a system for the automatic recognition and tracking of vehicles or people is trained in simplified environments, it may fail in hostile contexts that differ significantly from the reference dataset, producing erroneous decisions that jeopardize the safety of personnel. The initial section of the document insists on the importance of not viewing ethical and regulatory factors as a brake on innovation but rather as a lever to consolidate trust among all stakeholders, from individual operators to Parliament and public opinion. Framing AI within a defined perimeter of responsibility—clarifying who controls the algorithm, who is accountable for the outcomes, and how review processes are structured—makes wider and, above all, more sustainable long-term adoption possible. The presence of active human oversight, with tracking and auditing mechanisms, is one of the key conditions for maintaining the so-called human-centricity expressed by the Directive. This is exactly one of the points on which the methodological framework focuses: the ASR principles (Ambitious, Safe, Responsible) aim to manage the adoption of tools that can have a major impact on operational decisions in a balanced way. In parallel, AI’s strategic relevance also extends to more “behind the scenes” aspects, which are no less critical, such as the analysis of large volumes of data for predictive maintenance of weapons systems or logistical fleets and the reduction of response times in back-office administrative procedures. AI, when properly trained and integrated into reliable architectures, can speed up essential information flows and relieve staff of more repetitive tasks, leaving room for strategic planning or supervision duties. The danger, however, lies in possible data misinterpretation errors or in excessive trust in the algorithm when real conditions differ from the training scenario. Hence the need for continuous monitoring of model performance, both before release and during deployment, thanks to testing and verification procedures designed to account for potential changes in the operating environment. The strategic analysis presented by the document further highlights the need to maintain a multidisciplinary approach, engaging legal, technical, and operational expertise that works together throughout the entire AI lifecycle. This involvement must begin in the embryonic stage, when functional requirements are defined and data collection is initiated, and it must continue through development, integration, and reliability assessment. It is not uncommon for Defense projects to make use of open source or commercial software solutions, and in any case, it is crucial to require a sufficient level of certification from external suppliers to avoid a lack of solid evidence regarding data and testing processes. The British Ministry of Defence, in this regard, underscores the need for contractual guarantees that allow all necessary checks to be carried out, including those relating to the source of the dataset. Reliable AI in Defense: Ethical and Regulatory Principles The document clearly states that Artificial Intelligence should not be treated as a mere digital aid, but as a technology destined to interface with vital decision-making processes. Hence the centrality of regulatory references and ethical principles: any AI system must comply with international laws and conventions, particularly within the framework of International Humanitarian Law. In Defense applications, this entails a thorough review of norms concerning the use of force, the protection of human rights, and the accountability of military leadership. “JSP 936” cautions technicians and project managers about the risks of any lack of legal oversight: failing to do so could result in violations for which the entire military organization would be liable, causing extremely serious repercussions in terms of credibility and political responsibility. The approach codified in the five ASR principles—human-centricity, responsibility, understanding, bias and harm mitigation, reliability—suggests that every action should be evaluated with a view toward its potentially extensive impact, because AI solutions have an adaptive nature. A model trained on specific datasets can change its performance and outcomes if exposed to new conditions or alternative data sets. The principle of human-centricity reaffirms the need to keep the person (operator, analyst, citizen) at the center of the decision-making chain, both to prevent possible harm to civilian communities and to ensure that the decisions made in operational contexts are appropriate. Responsibility then implies defining, without ambiguity, who is accountable for the AI system’s actions during development, training, operational deployment, and ongoing maintenance. The document introduces specific reference roles, such as the Responsible AI Senior Officer (RAISO), designed to ensure that no gray areas arise in which the algorithm operates without human control. In this scenario, understanding also becomes a key factor: if a team cannot explain the basic criteria by which a given model generates its outputs and is unable to understand the limits of its training data, the very foundations for an intelligent and informed use of AI collapse. Merely implementing machine learning mechanisms and hoping they yield reliable results is not enough: organizations must structure comprehensive documentation, conduct validation tests, and ensure that end users understand the system outputs, at least at a level sufficient to guide the necessary trust or caution. The analysis of bias and harm mitigation draws attention to the problem of discrimination and potential unintended consequences. A facial recognition algorithm, for example, could have higher error rates for certain population groups if it is trained on unbalanced datasets. In a Defense context, unjustified discrimination or underestimation of certain risk profiles could result in operations that fail to comply with proportionality principles and the protection of civilians. Therefore, data collection must be handled rigorously, certifying the source, quality, and relevance of the information to the expected scenarios. The same applies to the secure management of data and models, as any cybersecurity vulnerabilities could compromise the entire system, opening the door to manipulation or theft of sensitive information. Another relevant aspect is reliability—the need to ensure that the AI system operates robustly, safely, and according to requirements even in adverse circumstances. Defense recalls the typical verification and validation procedures for software, which must be extended with large-scale tests and ongoing reviews, because learning algorithms may degrade over time or become unpredictable under extreme conditions. A security-by-design approach is proposed, integrating safety evaluations and mechanisms from the outset, along with continuous monitoring in real-world scenarios. This consideration carries even greater weight in the case of Robotic and Autonomous Systems (RAS), where human intervention can be limited, and an algorithmic malfunction could lead to errors in critical operational theaters. In the legal and ethical sections of the document, it is emphasized that compliance is not solely about what the technology does but also about how it is implemented and managed. It is in this “how” that potential violations or compliance become apparent: the same AI could be employed or configured in very different ways, and the Directive reiterates that every step must align with national and international regulations. Clarity of roles thus becomes decisive. The internal legal team, in contact with the Ministry’s legal advisors, must periodically review the development and use of the technology, flagging at-risk areas or regulatory gaps. Final decisions will be made by higher levels, such as the TLB Executive Boards, which, in turn, send compliance declarations and risk reports to top-level figures such as the Second Permanent Under Secretary (2PUS) or the relevant ministers, if risk levels are deemed critical. AI Security and Testing in Defense: Toward Reliable Implementation One of the most detailed sections of the document concerns the process of creating, testing, and integrating AI solutions. It describes methodologies akin to DevOps and MLOps principles—workflows intended for the continuous refinement of algorithms. The official text stresses how Machine Learning models or Deep Learning techniques require suitable training and validation datasets, to avoid overfitting (when the algorithm learns the dataset too closely and loses its ability to generalize) or underfitting (when the algorithm fails to capture the complexity of the problem). There is also the risk of catastrophic forgetting, in which a model, upon being updated with new data, “forgets” previously acquired knowledge. The text reflects on a crucial point: every AI solution must be integrated into a broader system with specific security features, hardware configurations, and defined interfaces. If the surrounding components change substantially, it must be verified that the algorithm still functions correctly by re-running integration and validation tests. Verification concerns both code integrity and compliance with requirements as well as the management of vulnerabilities. In the military context, this need is particularly stringent, as a small error in data interpretation can have enormous consequences on the ground, jeopardizing missions or endangering human lives. Within this reflection on model robustness, the Directive reiterates the need to constantly monitor the operational environment in which the AI is deployed. The so-called Operating Design Domain thus becomes a fundamental criterion to define the model’s scope of validity and to understand when incoming data falls outside the expected range. If a system has been trained to operate in urban scenarios, it may not be suitable for electronic warfare in desert areas. Periodic updates of neural networks, based on new data, are essential but must be carried out through a quality process that does not compromise previously acquired performance. Also relevant here is the issue of data configuration, which must be protected from tampering and responsibly managed concerning provenance, as specified by the configuration policy defined by the Ministry of Defence. Key points regarding development connect to the importance of choosing performance metrics that best match military and security objectives. High accuracy in the lab may not translate into satisfactory accuracy in the field, especially if the training dataset does not reflect real conditions. Consequently, it is mandatory to protect test data and separate validation datasets to independently verify system performance. An integrated security approach is also required from the design stage to prevent poisoning attacks or modifications during the inference phase. The directive acknowledges that traditional methods are not always sufficient, especially in the rapidly evolving field of machine learning, and therefore recommends ongoing integration of risk analysis procedures throughout the entire lifecycle. An interesting perspective is offered on model reusability. The Directive specifies that in many contexts, it might be preferable to use an already trained model, modifying certain parts or retraining it on more specific datasets. In such circumstances, it is necessary to ensure the availability of transparent documentation on how the model was initially developed and verified, on any licensing constraints, and on the guarantees of compatibility with operational requirements. Here again, the supplier contracts play a role, clarifying who owns the algorithm, who holds the intellectual property for the data, and whether internal validation tests may be conducted. Only when these elements are in place can the same model be safely integrated into new systems or operational contexts. On the other hand, the contractual dimension also takes on an international profile, since collaboration with foreign industries and universities must consider export controls, potential restrictions, and the fact that in multinational cooperation scenarios (e.g., with NATO or other allied forces), the rules might vary. The Directive also suggests not overlooking the factor of obsolescence: software systems evolve rapidly, and today’s cutting-edge AI solutions may become outdated in a short span of time. It is crucial to plan updates and maintenance procedures that keep pace with emerging security threats and technological advancements, assessing how far a model can be extended or updated without risking negative impacts on performance. Risk Management, Security, and Accountability in Experimentation One of the core themes of JSP 936 pertains to risk management throughout the entire process of AI development and deployment. The classification system proposed suggests defining a level of risk based on impact and probability, identifying possible scenarios in which improper use or an algorithmic flaw could cause tangible harm. AI projects that exceed certain critical thresholds require extremely high-level oversight, undergoing review by bodies like the Joint Requirements Oversight Committee or the Investments Approvals Committee, and in extreme cases, even ministerial supervision. This is not mere bureaucracy, but a mechanism designed to ensure maximum alertness when activities with strong ethical or operational implications are involved. The text clarifies that security extends beyond protection from cyberattacks—though that is a core focus, given the growth of advanced hacking techniques and the possibility of manipulating training data to produce adverse effects. Security also includes the physical safety of scenarios where AI is employed in autonomous aerial, ground, or naval systems. In such cases, an algorithmic failure or a malfunction due to hostile electronic countermeasures could lead to dangerous maneuvering errors. That is why the Directive stresses rigorous testing procedures, simulated under realistic or near-real conditions, with the ability to quickly isolate the system in the event of abnormal behavior. Setting safety standards and coordinating with regulations such as Def Stan 00-055 and 00-056 are mandatory, as is adopting proven Safety Management Systems (JSP 815, JSP 375, and JSP 376). The theme of responsibility, linked to AI governance, involves multiple professional roles and spans the entire project lifecycle, from initial development to subsequent updates, including real-world mission operations. The suggested approach aims to avoid redundant structures while updating existing control processes to integrate AI-specific features. The top authorities intend for teams not to duplicate unnecessary procedures but to adapt protocols so they can recognize and manage the risks inherent in machine learning systems. A responsible approach also implies the awareness that AI is fallible and may have error margins that are not always predictable. In the context of Research & Development projects, the Directive emphasizes the need for controlled testing, preferably in safe environments, where any undesirable behavior can be studied and corrected. When research on human subjects is required to validate the effectiveness of certain algorithms (e.g., for the analysis of human-machine interactions), it must strictly adhere to the guidelines of JSP 536, addressing issues of safety and informed consent. Unintended effects on unaware individuals must be avoided, such as the use of sensitive personal data in contexts not clearly authorized. Also regarding experimentation, the Directive indicates the production of templates and support materials (model cards, ethical risk labels, AI assurance questionnaires) to assist personnel. The objective is to create a library of best practices so that various departments can share information on successful solutions, lessons learned and identified vulnerabilities. This exchange is deemed essential for interoperability with allies, both within and beyond NATO, because AI does not respect national borders and requires international cooperation to be effectively managed. In particular, the British Defense approach, consistent with NATO trends, is grounded in building AI that is transparent, analyzable, and aligned with shared democratic principles. Risk management is further strengthened by consideration of issues such as confidentiality, integrity, and availability of data (the classic pillars of cybersecurity). For a system trained with classified data, the Directive specifies that the resulting model inherits the same or even a higher level of classification if aggregating sensitive data creates a high-risk scenario. This entails an obligation to maintain strict control over information flows, with auditing procedures and a clear trace of data movement from the initial source through training to final deployment in the field. Human-AI Teaming in Defense: Integration and Innovation “JSP 936” devotes particular attention to the integration of humans and intelligent machines. This topic does not concern only drone pilots or soldiers using automatic targeting systems but extends to administrative and logistical sectors as well. Human-AI teaming is considered a hallmark of the ongoing digital transformation: operator and machine must work in synergy, leveraging their respective strengths. The human role remains crucial in ensuring meaningful control and intervening with the required flexibility, while the machine can quickly analyze complex data, offering scenarios and reducing operators’ cognitive load. However, for this collaboration to produce the desired outcomes, personnel training becomes indispensable. The document outlines the need to provide training not only in using new systems but also to develop a deep understanding of their vulnerabilities and the associated risks. If an operator places blind trust in the outcome of an image recognition system, for instance, they might miss false positives or false negatives in unforeseen conditions, with potentially disastrous consequences. The Directive recommends planning training programs that expose personnel to edge cases, anomalies, and typical AI model errors, providing clear guidelines on when and how to manually intervene. Human-centricity is fully evident in this context, too, as personnel are not merely cogs in a machine but are instead protagonists in the integration of Artificial Intelligence into Defense. In some operational scenarios, robots and autonomous systems must function without continuous oversight, but a central command should always be able to resume control at any time. This form of “meaningful control” is at the core of military ethics and satisfies specific legal requirements. The Directive thus stresses defining clear roles and specific responsibilities: who trains the AI, who evaluates it, who approves it, who monitors its performance in missions, and who manages emergencies. Each person involved should have the requisite training to fulfill their role, and where internal competencies fall short, collaboration with universities and specialized firms is encouraged to fill any knowledge gaps. The document illustrates that the challenge of operating across multiple domains—air, land, sea, space, and cyberspace—necessitates unified standards: an AI system controlling an autonomous ground vehicle might need to communicate with a naval platform or an observation satellite. From this perspective, human-AI teaming becomes a large-scale team effort where multiple algorithms operate in parallel and various groups of operators simultaneously interact with the technology. Complexity increases, as does the need for integrated testing procedures, joint simulation scenarios, and a regulatory framework that defines collective responsibilities. It is precisely in this integration that the British Defense sees an opportunity to maintain a military advantage, provided a trust-based ecosystem is created among Allies and sufficient guarantees of correct system behavior are offered. In its final chapters, “JSP 936” explicitly mentions the need to update personnel career paths so that AI is not viewed merely as a tool but as an integral part of a soldier’s or Defense official’s job. Achieving this cultural shift requires constant investment: from e-learning platforms to the creation of multidisciplinary analyst teams, from enhancing simulation laboratories to introducing specific security protocols for AI scenarios. Ultimately, the Directive promotes an organizational model capable of evolving at the same pace as technology, avoiding rigidity in frameworks that are no longer adequate for the contemporary context. Conclusions The information presented in “JSP 936 V1.1 Dependable Artificial Intelligence (AI) in Defence Part 1: Directive” provides a realistic and detailed picture of how Artificial Intelligence is entering the mechanisms of Defense, influencing operational choices, logistical processes, and ethical assessments. Security, robustness, and system transparency are no longer mere technical details; they are actual enablers of a potential competitive advantage on which armed forces are investing. From the current state of the art, it is clear that many similar technologies—ranging from large neural networks used by commercial enterprises to predictive analysis software in the financial sector—already offer comparable functionalities. The real challenge lies in the specific integration of these tools into operational theaters, alongside the strict legal accountability standards required by both national and international defense. A key factor lies in ensuring ongoing dialogue between scientific research and the military domain, promoting opportunities for reflection that allow for predicting and understanding the future impacts of algorithms. Often, those who develop a Deep Learning model do not fully realize the operational complexities of a battlefield, just as those who plan missions may be unfamiliar with the potential pitfalls of a partially trained model. Hence the necessity for permanent interfaces between areas of expertise to ensure that solutions, while ambitious, do not exceed acceptable risk levels. In an increasingly rich landscape of AI solutions—from open-source platforms to offerings by major multinationals—Defense must evaluate how external systems can be integrated into proprietary architectures. The interoperability question, especially in international alliances and with NATO, goes far beyond choosing file formats. It concerns ensuring that ethical principles, testing methodologies, and security standards are aligned, so as to build mutual trust and a solid framework for information sharing. Comparing with competing or parallel technologies, developed in other countries or the private sector, provides an opportunity for continuous improvement, provided one remains firmly rooted in reliability and transparency criteria. The need for strict protocols, detailed risk analysis, and continuous ethical oversight makes the sector of Artificial Intelligence in Defense a laboratory for ideas where synergy between industry and military institutions can produce solid innovations. In practical terms, this means exploring business models in which public-private collaboration goes beyond the mere supply of technological solutions, fostering an ongoing exchange of legal, scientific, and operational competencies. “JSP 936” is not just a rulebook but an incentive to understand how far Artificial Intelligence can go without losing sight of democratic values and collective security. While the rapid pace of technological evolution encourages the experimental adoption of increasingly complex systems, it also calls for calm reflection on strategic impacts and on the possibility that, in the near future, models may become even more capable of learning and adapting. Ultimately, the effectiveness of these tools will hinge on organizations’ abilities to anticipate and govern ethical and operational implications, as well as to train personnel for critical and informed use, striving for a balance that enables them to reap the benefits without subjecting defense structures to unnecessary risks. The key message is that the real strength of Artificial Intelligence lies in the collaboration between humans and machines, provided it is supported by solid processes and an ever-updated ethical and regulatory vision. Podcast: https://spotifycreators-web.app.link/e/O7DX382BEPb Source: https://assets.publishing.service.gov.uk/media/6735fc89f6920bfb5abc7b62/JSP936_Part1.pdf
Intelligenza Artificiale nella Difesa: dinamiche, sfide e prospettive
“ JSP 936 V1.1 Dependable Artificial Intelligence (AI) in Defence Part 1: Directive ” è il titolo della più recente direttiva per la Difesa sviluppata da Alison Stevenson (Director General Delivery & Strategy, Ministry of Defence) insieme a Defence AI and Autonomy Unit (DAU) e Defence AI Centre (DAIC) , in collaborazione con il Ministero della Difesa del Regno Unito . Il documento si concentra sull’implementazione dell’Intelligenza Artificiale in ambito militare, puntando a un uso sicuro e responsabile delle nuove tecnologie. L’obiettivo principale è fornire direttive chiare su come sviluppare algoritmi e modelli d’avanguardia, garantendo trasparenza, adeguatezza normativa ed etica. Intelligenza Artificiale nella Difesa: dinamiche, sfide e prospettive L’Intelligenza Artificiale nella Difesa globale: opportunità e responsabilità La direttiva inquadra l’Intelligenza Artificiale nella Difesa del Regno Unito come elemento trasversale, destinato a permeare ogni aspetto dell’apparato militare contemporaneo. Le basi teoriche del documento suggeriscono che adottare forme di AI in diversi segmenti della Difesa – dalla logistica fino al supporto decisionale in ambienti operativi complessi – può favorire un incremento dell’efficacia e della rapidità di azione. Al contempo, viene esplicitamente sottolineato che l’ampia diffusione della tecnologia va bilanciata con un livello elevato di controllo e responsabilità, in modo da proteggere non solo gli operatori, ma anche la popolazione civile e l’integrità dei sistemi stessi. L’importanza di una visione strategica dell’AI deriva anche dalle esperienze maturate negli ultimi anni. L’evoluzione dell’AI evidenzia con chiarezza la velocità di sviluppo raggiunta dagli algoritmi di Machine Learning e Deep Learning, soprattutto in aree quali la computer vision e l’elaborazione del linguaggio naturale. D’altro canto, la Difesa ha compreso che le possibilità offerte dall’AI non si limitano alle capacità di calcolo, ma si estendono all’intero scenario di sicurezza internazionale, tenendo conto delle potenziali vulnerabilità aperte da tecniche di attacco informatico mirate, come l’avvelenamento dei dati o la manipolazione di modelli addestrati su dataset non affidabili. Proprio per questo, il documento sottolinea il concetto di contesto operativo (Operating Design Domain, ODD) , ovvero l’insieme di condizioni, requisiti e vincoli in cui un determinato sistema AI dovrebbe operare. Definire con precisione l’ambito di utilizzo di un algoritmo o di un modello non è soltanto un esercizio tecnico, ma diventa la base per comprendere i rischi e pianificare le adeguate misure di protezione. Se un sistema di riconoscimento e tracciamento automatico di veicoli o persone viene addestrato in ambienti semplificati, potrebbe fallire in contesti ostili o molto diversi dal dataset di riferimento, generando decisioni errate che mettono a repentaglio la sicurezza del personale. La sezione iniziale del documento insiste sull’importanza di non vedere il fattore etico e normativo come un freno all’innovazione, bensì come una leva per consolidare la fiducia di tutte le parti in causa, dal singolo operatore al Parlamento e all’opinione pubblica. Inquadrare l’AI in un perimetro di responsabilità definita – in cui si chiarisce chi controlla l’algoritmo, chi risponde dei risultati e come sono strutturati i processi di revisione – rende possibile un’adozione più ampia e soprattutto sostenibile nel lungo periodo. La presenza di una supervisione umana attiva, con meccanismi di tracciamento e auditing, rappresenta una delle condizioni chiave per mantenere salda la cosiddetta human-centricity espressa dalla Direttiva. È esattamente questo uno dei punti su cui si concentra il quadro metodologico: i principi ASR (Ambitious, Safe, Responsible) puntano a gestire con equilibrio l’adozione di strumenti che potranno avere un impatto marcato sulle decisioni operative. In parallelo, la rilevanza strategica dell’AI si estende anche ad aspetti più di retrovia, ma non per questo meno cruciali, quali l’analisi di grandi volumi di dati per la manutenzione predittiva di sistemi d’arma o di flotte logistiche, e la riduzione dei tempi di risposta in procedure amministrative di back-office. L’AI, se opportunamente addestrata e inserita in architetture affidabili, può accelerare il flusso di informazioni essenziali e alleggerire il personale da compiti più ripetitivi, lasciando spazio a mansioni di pianificazione strategica o supervisione. Il pericolo, però, risiede in eventuali errori di interpretazione dei dati o in eccessiva fiducia nell’algoritmo quando le condizioni reali differiscono dallo scenario di addestramento. Da qui discende la necessità di un monitoraggio continuo della performance dei modelli, sia prima del rilascio sia durante l’impiego sul campo, grazie a procedure di test e verifica pensate in modo da tenere conto di eventuali mutamenti nel panorama operativo. L’analisi strategica del documento evidenzia inoltre l’esigenza di mantenere un approccio multidisciplinare , con competenze legali, tecniche e operative che cooperino in tutte le fasi del ciclo di vita dell’AI. Questo coinvolgimento deve cominciare in fase embrionale, quando si stabiliscono i requisiti funzionali e si avvia la raccolta dati, e proseguire durante lo sviluppo, l’integrazione e la valutazione dell’affidabilità. Non è raro che progetti di difesa facciano uso di soluzioni open source o di software commerciali, e in ogni caso è cruciale esigere dai fornitori esterni un livello di certificazione adeguato, per evitare che manchino evidenze solide sui dati e sui processi di test. Il Ministero della Difesa britannico, a tal proposito, rimarca la necessità di garanzie contrattuali che consentano di effettuare tutte le verifiche del caso, incluse quelle sulla provenienza del dataset . AI affidabile nella Difesa: principi etici e normativi Il documento evidenzia con chiarezza che l’Intelligenza Artificiale non va trattata come un semplice supporto digitale, bensì come una tecnologia destinata a dialogare con processi decisionali vitali. Da qui deriva la centralità di riferimenti normativi e principi etici, poiché qualsiasi sistema AI deve conformarsi alle leggi e alle convenzioni internazionali , in particolare nel quadro del Diritto Internazionale Umanitario. Negli usi di difesa, ciò implica uno studio approfondito delle norme relative all’impiego della forza, alla tutela dei diritti umani e all’accountability dei vertici militari. La “JSP 936” mette dunque in guardia i tecnici e i responsabili di progetto dai rischi di un’eventuale mancanza di supervisione legale: si rischierebbe di cadere in violazioni di cui l’intero ente militare dovrebbe poi rispondere, con ricadute gravissime in termini di credibilità e responsabilità politica. L’approccio codificato nei cinque principi ASR – human-centricity, responsibility, understanding, bias and harm mitigation, reliability – suggerisce che ogni azione debba essere valutata in un’ottica di impatto potenzialmente ampio, perché le soluzioni AI hanno una vocazione adattiva: un modello addestrato su specifici dataset può mutare prestazioni e risultati se esposto a nuove condizioni o set di dati alternativi. Il principio della human-centricity ribadisce l’esigenza di mantenere la persona (operatore, analista, cittadino) al centro della filiera decisionale, sia prevenendo possibili danni alle comunità civili sia garantendo l’adeguatezza delle scelte che si compiono in ambito operativo. Responsibility significa poi definire, senza ambiguità, chi risponde delle azioni del sistema AI in fase di sviluppo, addestramento, impiego operativo e manutenzione continua. Il documento inserisce figure di riferimento, come il Responsible AI Senior Officer (RAISO), concepite per accertarsi che non si creino zone grigie dove l’algoritmo agisce senza controllo umano. In questo scenario, anche la comprensione (understanding) diventa un fattore chiave: se un team non sa spiegare i criteri di base con cui un determinato modello genera output e non è in grado di comprendere i limiti dei dati di addestramento, vengono meno le premesse stesse di un uso intelligente e consapevole dell’AI. Non basta implementare meccanismi di machine learning e sperare che diano risultati affidabili: occorre strutturare una documentazione articolata, condurre test di validazione e rendere comprensibili, per gli utenti finali, gli esiti dell’elaborazione, almeno a un livello sufficiente a guidare la fiducia o la cautela necessaria. L’analisi della bias and harm mitigation porta all’attenzione il problema della discriminazione e dei potenziali effetti indesiderati. Un algoritmo di riconoscimento facciale, ad esempio, potrebbe avere tassi di errore più elevati su determinate fasce di popolazione se addestrato con dataset non bilanciati. In un contesto di Difesa, la discriminazione indebita o la sottovalutazione di determinati profili di rischio potrebbe dar luogo a operazioni non conformi ai principi di proporzionalità e di protezione dei civili. Per questo, la fase di raccolta dati va curata in maniera rigorosa, certificando l’origine delle informazioni, la loro qualità e la pertinenza rispetto agli scenari previsti. Lo stesso discorso vale per la gestione in sicurezza dei dati e dei modelli, poiché eventuali vulnerabilità informatiche rischiano di compromettere l’intero sistema, spalancando le porte a manipolazioni o furti di informazioni sensibili. Altro aspetto rilevante è quello della reliability , la necessità di garantire che il sistema AI operi in modo robusto, sicuro e rispondente alle richieste anche in circostanze avverse. La Difesa richiama le procedure di verifica e convalida tipiche del software, che vanno però ampliate con test su larga scala e revisioni continue, perché gli algoritmi di apprendimento potrebbero degradare nel tempo o risultare imprevedibili in condizioni estreme. Viene proposto un approccio di sicurezza by design, integrando valutazioni e meccanismi di sicurezza fin dall’inizio, insieme a un monitoraggio costante in scenari reali. Questo richiamo assume ancora maggior peso nel caso dei sistemi di Robotic and Autonomous Systems (RAS), dove l’intervento umano può essere limitato, e un malfunzionamento algoritmico rischia di condurre a errori in teatri di operazione critici. Nella parte legale ed etica del documento si sottolinea che la compliance non è semplicemente legata a ciò che la tecnologia fa, ma a come viene implementata e gestita. È in questo “come” che si manifestano potenziali violazioni o ottemperanze: la stessa AI potrebbe essere impiegata o impostata in modi molto differenti, e la Direttiva ribadisce che ogni passaggio deve essere in linea con le normative nazionali e internazionali. La chiarezza di ruoli si rivela allora decisiva. Il team legale interno, in contatto con i riferimenti giuridici del Ministero, deve esaminare periodicamente lo sviluppo e l’impiego della tecnologia, segnalando zone a rischio o lacune normative. Le decisioni finali spetteranno a livelli superiori, come i TLB Executive Boards, che a loro volta invieranno dichiarazioni di conformità e report di rischio a figure di vertice quali il 2PUS (Second Permanent Under Secretary) o i ministri competenti, se il livello di rischio si attesta su soglie critiche. Sicurezza e test dell’AI nella Difesa: verso un'implementazione affidabile Uno dei punti più dettagliati del documento riguarda il processo di creazione, test e integrazione delle soluzioni AI. Vengono descritte metodologie che richiamano i princìpi DevOps e MLOps, ossia flussi di lavoro pensati per un continuo perfezionamento degli algoritmi. Il testo ufficiale pone l’accento su come modelli di Machine Learning o tecniche di Deep Learning abbiano bisogno di set di dati di addestramento e validazione adeguati, per evitare fenomeni di overfitting (quando l’algoritmo impara troppo fedelmente il dataset perdendo capacità di generalizzazione) o underfitting (quando l’algoritmo non riesce a cogliere la complessità del problema). Esiste poi il rischio di catastrofic forgetting, dove un modello, aggiornandosi con dati nuovi, “dimentica” competenze precedentemente acquisite. Il testo riflette su un aspetto cruciale: ogni soluzione AI va integrata in un sistema più ampio , con precise caratteristiche di sicurezza, configurazioni hardware e interfacce definite. Se i componenti circostanti cambiano in modo sostanziale, ci si deve accertare che l’algoritmo continui a funzionare correttamente, ripetendo test di integrazione e validazione. La verifica riguarda sia la bontà del codice, sia la rispondenza ai requisiti e la gestione delle vulnerabilità. Nel contesto militare, questa esigenza si fa particolarmente stringente, poiché un piccolo errore di interpretazione dei dati può generare conseguenze enormi sul campo, compromettendo missioni o mettendo in pericolo vite umane. All’interno di questa riflessione sulla robustezza dei modelli, la Direttiva ribadisce la necessità di monitorare con costanza l’ ambiente operativo in cui l’AI è schierata. Il cosiddetto Operating Design Domain diventa così un criterio fondamentale per definire i confini di validità del modello e capire quando i dati in arrivo esulano dalla casistica prevista. Se un sistema fosse addestrato per operare in scenari urbani, potrebbe non essere adatto a situazioni di guerra elettronica in aree desertiche. L’ aggiornamento periodico delle reti neurali, sulla base di nuovi dati, diventa essenziale, ma dev’essere effettuato con un processo di qualità che non infici prestazioni già acquisite. Rientra qui anche la questione della configurazione dei dati, che devono essere protetti da manomissioni e adeguatamente gestiti in termini di provenienza, come specificato dalla politica di configurazione definita dal Ministero della Difesa. I punti salienti relativi allo sviluppo si collegano all’importanza di scegliere le metriche di performance che più si adattano all’obiettivo militare e di sicurezza. Una precisione elevata in laboratorio potrebbe non tradursi in accuratezza soddisfacente in un’operazione sul campo, specie se il dataset di addestramento non riflette condizioni reali. Da qui emerge l’obbligo di salvaguardare dati di test e set di dati di verifica separati, per controllare in maniera indipendente la performance del sistema. È inoltre richiesto un approccio alla sicurezza integrato fin dalla fase di design, per prevenire attacchi di avvelenamento del dataset (poisoning) o alterazioni in fase di inferenza. La direttiva riconosce che le metodologie tradizionali non sempre risultano sufficienti, soprattutto in un campo in rapida evoluzione come l’apprendimento automatico, per cui si auspica un’integrazione continua delle procedure di analisi del rischio lungo l’intero ciclo di vita. Interessante è la prospettiva dedicata alla riutilizzabilità dei modelli. La Direttiva specifica che in molti contesti si potrebbe preferire un modello già addestrato, modificando alcune parti o riaddestrandolo su dataset più specifici. In tali circostanze, occorre assicurarsi di avere documentazione trasparente su come il modello è stato inizialmente sviluppato e verificato, sugli eventuali vincoli di licenza e sulle garanzie di compatibilità con i requisiti operativi. Ritorna quindi il ruolo dei contratti di fornitura con soggetti esterni, che devono chiarire la titolarità dell’algoritmo, la proprietà intellettuale dei dati e la possibilità di effettuare test interni di validazione. Solo in presenza di questi elementi, si potrà procedere in sicurezza a integrare lo stesso modello in nuovi sistemi o contesti operativi. D’altro canto, la dimensione contrattuale assume anche un profilo internazionale, visto che la collaborazione con industrie e Università straniere deve tenere conto dei controlli all’esportazione , di possibili regimi di restrizione e del fatto che in scenari di cooperazione con alleati come la NATO o altre forze multinazionali, i set di regole potrebbero variare. La Direttiva suggerisce poi di non trascurare il fattore obsolescenza : i sistemi software evolvono rapidamente, e le soluzioni di AI che oggi appaiono all’avanguardia potrebbero rivelarsi superate in tempi brevi. È fondamentale pianificare aggiornamenti e procedure di manutenzione che tengano il passo con le minacce di sicurezza emergenti e con i progressi tecnologici, valutando in che misura un modello possa essere esteso o aggiornato senza rischiare alterazioni negative delle prestazioni. Gestione del rischio, sicurezza e responsabilità nella sperimentazione Uno dei punti centrali della JSP 936 riguarda la gestione del rischio in tutte le fasi di sviluppo e impiego dell’AI. Il sistema di classificazione proposto suggerisce di definire un livello di rischio in base a impatto e probabilità, identificando possibili scenari in cui un uso improprio o una falla nell’algoritmo potrebbero generare danni concreti. I progetti di AI che superano determinate soglie di criticità richiedono un’attenzione gerarchica molto elevata, passando per la valutazione da parte del Joint Requirements Oversight Committee o dell’Investments Approvals Committee, e in casi estremi persino la supervisione ministeriale. Non si tratta di mera burocrazia, ma di un meccanismo pensato per assicurare la massima allerta quando sono in gioco attività con forti implicazioni etiche o operative. Il testo puntualizza che la sicurezza non si limita alla protezione da attacchi informatici, benché sia un aspetto focale vista la crescita di tecniche di hacking avanzato e la possibilità di manipolare i dati di addestramento per generare effetti avversi. La sicurezza comprende anche la tutela dell’incolumità fisica negli scenari in cui l’AI viene utilizzata a bordo di sistemi aeronautici, terrestri o navali autonomi. In tali situazioni, un guasto dell’algoritmo, oppure un malfunzionamento dovuto a contromisure elettroniche ostili, potrebbe determinare errori di manovra pericolosi. Ecco perché la Direttiva insiste su procedure di test molto rigorose, simulate in condizioni operative realistiche o quasi reali, con la possibilità di isolare rapidamente il sistema in caso di comportamento anomalo. È chiaro che la definizione di standard di sicurezza e il coordinamento con normative quali le Def Stan 00-055 e 00-056 diventano obbligatori, così come il ricorso a Safety Management Systems collaudati (JSP 815, JSP 375 e JSP 376). Il tema della responsabilità, correlato al concetto di governance dell’AI, coinvolge diversi ruoli professionali e copre l’intero arco di vita del progetto, dallo sviluppo iniziale ai successivi aggiornamenti, passando per l’esecuzione concreta in missione. L’ottica suggerita è di evitare strutture ridondanti, ma di aggiornare i processi di controllo già esistenti in modo che integrino le peculiarità dell’AI. Le autorità di vertice vogliono fare in modo che le squadre non si ritrovino a duplicare procedure inutili, ma piuttosto adattino i protocolli, rendendoli capaci di riconoscere e gestire i rischi tipici dei sistemi di apprendimento automatico. Un approccio responsabile comprende anche la consapevolezza che l’AI non è infallibile e può avere margini d’errore non sempre prevedibili. Nel contesto delle sperimentazioni (progetti Research & Development), la Direttiva enfatizza la necessità di condurre test controllati, preferibilmente in ambienti sicuri, dove eventuali comportamenti indesiderati possano essere studiati e corretti. La ricerca su esseri umani , se necessaria per validare l’efficacia di certi algoritmi (ad esempio, per l’analisi delle interazioni uomo-macchina), deve rispettare scrupolosamente le linee guida di JSP 536, in cui si affrontano i temi di sicurezza e consenso informato dei partecipanti. Soprattutto, occorre evitare effetti indesiderati su individui ignari, come l’uso di dati personali sensibili in contesti non chiaramente autorizzati. Sempre sul fronte sperimentale, la Direttiva indica la produzione di template e materiali di supporto (model card, etichette di rischio etico, questionari di AI assurance) che dovrebbero agevolare il personale. L’obiettivo è creare una biblioteca di buone pratiche, per permettere ai vari reparti di scambiarsi informazioni su soluzioni di successo, lezioni apprese e vulnerabilità individuate. Questa condivisione è considerata fondamentale anche nell’ottica dell’ interoperabilità con gli alleati, dentro e fuori la NATO, perché l’AI non rispetta confini nazionali e richiede una collaborazione a livello internazionale per essere gestita con efficacia. In particolare, la linea di pensiero della Difesa britannica, in consonanza con le tendenze NATO, si fonda sulla costruzione di un’AI che risulti trasparente, analizzabile e coerente con i principi democratici condivisi. La gestione del rischio viene ulteriormente rafforzata dal richiamo a questioni come la confidenzialità, l’integrità e la disponibilità dei dati (i classici pillar di sicurezza cibernetica). Per un sistema addestrato con dati classificati, la Direttiva specifica che il modello prodotto assume lo stesso livello di classificazione o persino un livello più alto, se l’aggregazione di dati sensibili genera uno scenario di rischio elevato. Da ciò discende l’obbligo di tenere sotto stretto controllo ogni passaggio di informazioni, con procedure di auditing e tracciamento chiaro del flusso di dati dall’origine alla fase di addestramento e poi al rilascio sul campo. Human-AI Teaming nella Difesa: integrazione e innovazione Il documento “JSP 936” affronta con particolare cura il tema dell’integrazione fra esseri umani e macchine intelligenti. È un argomento che non coinvolge solo i piloti di droni o i soldati che impiegano sistemi di puntamento automatico, ma si estende anche ai settori amministrativi e logistici. L’ human-AI teaming è considerato un tratto distintivo della trasformazione digitale in atto: operatore e macchina devono operare in sinergia, facendo leva sui rispettivi punti di forza. Il ruolo umano resta cruciale per assicurare un controllo significativo e per intervenire con la necessaria flessibilità, mentre la macchina può fornire analisi rapide di dati complessi, suggerendo scenari e riducendo la fatica cognitiva dell’operatore. Tuttavia, perché questa collaborazione produca i risultati attesi, la formazione del personale diventa un requisito imprescindibile. Il documento descrive la necessità di erogare training non soltanto per istruire all’uso dei nuovi sistemi, ma anche per sviluppare una comprensione approfondita dei loro punti deboli e dei rischi associati. Se un operatore credesse ciecamente all’esito di un sistema di riconoscimento di immagini, potrebbe non notare falsi positivi o falsi negativi in condizioni impreviste, con conseguenze disastrose. La Direttiva raccomanda di pianificare programmi di addestramento che mostrino al personale casi limite, situazioni anomale ed esempi di errore tipici dei modelli AI, fornendo indicazioni chiare su quando e come intervenire manualmente. Il concetto di human-centricity si rivela pienamente anche qui, poiché il personale non è soltanto un ingranaggio della catena, ma un protagonista nell’integrazione dell’ Intelligenza Artificiale nella Difesa . In alcuni scenari operativi, i robot e i sistemi autonomi devono potersi muovere senza intervento continuo, ma ciò non toglie che un comando centrale debba essere in grado di riprendere il controllo in qualunque momento. Questa forma di “controllo significativo” è alla base dell’etica militare e risponde a specifici requisiti legali. La Direttiva insiste quindi sulla definizione di ruoli chiari e competenze specifiche: chi addestra l’AI, chi la testa, chi l’approva, chi ne monitora le prestazioni durante le missioni e chi gestisce le eventuali emergenze. Ogni persona coinvolta dovrebbe avere una formazione adeguata a ricoprire il proprio ruolo e, dove le competenze interne non bastano, si auspica il ricorso ad accordi di collaborazione con università e imprese specializzate, così da colmare i gap di conoscenza. Il documento illustra che la sfida del multidominio – aria, terra, mare, spazio e cyberspazio – comporta l’esigenza di standard unificati: un sistema AI che controlla un veicolo autonomo terrestre potrebbe dover operare in rete con una piattaforma navale o con un satellite di osservazione. L’uman-AI teaming, in quest’ottica, diventa un lavoro di squadra esteso, dove più algoritmi operano in parallelo e diversi gruppi di operatori interagiscono simultaneamente con la tecnologia. La complessità cresce, e con essa la necessità di procedure di test integrate, scenari di simulazione congiunti e un quadro normativo che definisca responsabilità comuni. È proprio in questa integrazione che la Difesa britannica vede la possibilità di manutenere un vantaggio militare , purché si crei un ecosistema di fiducia tra gli Alleati e si offrano sufficienti garanzie di comportamento corretto dei sistemi. Nei capitoli finali, la JSP 936 menziona esplicitamente il bisogno di aggiornare le carriere del personale affinché l’AI non venga vista come mero strumento, ma come parte integrante del mestiere del soldato e del funzionario di Difesa. Questa trasformazione culturale esige un investimento costante: dalle piattaforme di e-learning alla creazione di gruppi multidisciplinari di analisti, dal potenziamento dei laboratori di simulazione all’introduzione di protocolli di sicurezza specifici per scenari di intelligence artificiale. In definitiva, la Direttiva promuove un modello di organizzazione che sappia evolvere con la stessa rapidità con cui la tecnologia si trasforma, evitando di irrigidirsi in schemi non più adeguati al contesto contemporaneo. Conclusioni Le informazioni emerse dal documento “JSP 936 V1.1 Dependable Artificial Intelligence (AI) in Defence Part 1: Directive” tracciano un quadro realistico e articolato di come l’Intelligenza Artificiale si stia insinuando nei meccanismi della Difesa, influenzando scelte operative, processi logistici e valutazioni etiche. La sicurezza, la robustezza e la trasparenza dei sistemi non rappresentano più dettagli tecnici, ma veri fattori abilitanti di un potenziale vantaggio competitivo su cui le forze armate stanno investendo. Se ci si limita a osservare lo stato dell’arte, è evidente che numerose tecnologie similari – dalle grandi reti neurali usate nelle aziende commerciali fino ai software di analisi predittiva in ambito finanziario – offrono già funzionalità paragonabili. Il vero nodo sta nella specifica integrazione di questi strumenti con le esigenze dei teatri di operazione e con i rigorosi standard di responsabilità giuridica che la difesa nazionale e internazionale richiedono. Un elemento fondamentale consiste nel garantire un dialogo continuo tra la ricerca scientifica e l'ambito militare, promuovendo momenti di riflessione che permettano di prevedere e comprendere gli impatti futuri degli algoritmi. Non sempre chi sviluppa un modello di Deep Learning ha la piena consapevolezza delle complessità operative di un campo di battaglia, né chi pianifica missioni ha familiarità con le potenziali derive di un modello addestrato in modo parziale. Da ciò scaturisce la necessità di interfacce permanenti tra le competenze, per garantire che le soluzioni, pur essendo ambiziose, non superino il limite di tolleranza al rischio. In un panorama sempre più ricco di soluzioni di AI, dalle piattaforme open source alle proposte di grandi multinazionali, la Difesa è chiamata a valutare in che misura sistemi esterni possano essere integrati in architetture proprietarie. La questione dell’interoperabilità, soprattutto in alleanze internazionali e con la NATO, va ben oltre la scelta dei formati di file. Riguarda la garanzia che i principi etici, le metodologie di test e i livelli di sicurezza siano allineati, così da costruire un rapporto di fiducia reciproca e una solidale condivisione di informazioni. Il confronto con tecnologie concorrenti o parallele, che agiscono in altri Paesi o nel settore privato, fornisce l’occasione di cogliere spunti di miglioramento continuo, purché si rimanga ancorati a criteri di affidabilità e trasparenza. La necessità di protocolli severi, di un’analisi del rischio dettagliata e di un monitoraggio etico costante rende il settore dell’ Intelligenza Artificiale nella Difesa un laboratorio di idee in cui la sinergia tra industria e istituzioni militari può produrre innovazioni di grande solidità. Sotto il profilo pratico, significa studiare modelli di business in cui la collaborazione pubblico-privato non si limita alla fornitura di soluzioni tecnologiche, ma include un continuo interscambio di competenze legali, scientifiche e operative. La “JSP 936” non è soltanto un manuale di regole, ma uno stimolo a capire fin dove l’Intelligenza Artificiale possa spingersi senza perdere di vista i valori democratici e la sicurezza collettiva. Se da un lato la velocità di evoluzione tecnologica spinge verso l’adozione sperimentale di sistemi sempre più complessi, dall’altro è indispensabile una riflessione pacata sugli impatti strategici e sull’eventualità che i modelli, in un futuro prossimo, diventino ancor più capaci di apprendere e adattarsi. In conclusione, l’efficacia di questi strumenti si giocherà sulla capacità delle organizzazioni di prevedere e governare le implicazioni etiche e operative, nonché di formare il personale a un uso critico e consapevole, ricercando un equilibrio che consenta di cogliere i benefici senza esporre le strutture di difesa a rischi immotivati. Il messaggio chiave è che la vera forza dell’Intelligenza Artificiale risiede nella collaborazione tra uomini e macchine, purché sostenuta da processi solidi e da una visione etica e normativa sempre aggiornata. Podcast: https://spotifycreators-web.app.link/e/mWiY692BEPb Fonte: https://assets.publishing.service.gov.uk/media/6735fc89f6920bfb5abc7b62/JSP936_Part1.pdf