L'AI medica secondo il modello o1 di OpenAI tra progressi e criticità

Andrea Viliotti
27 set 2024
Tempo di lettura: 19 min

Lo studio intitolato "A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?", condotto da Yunfei Xie, Juncheng Wu, Haoqin Tu, Siwei Yang dell'Università della California, Santa Cruz, in collaborazione con Bingchen Zhao e Yongshuo Zong dell'Università di Edimburgo, e Qiao Jin, Cihang Xie (Università della California, Santa Cruz) e Yuyin Zhou (National Institutes of Health), esplora l'applicazione del modello di linguaggio di grandi dimensioni o1 di OpenAI nel campo della medicina. Questo modello si distingue per l'adozione di una tecnica interna di "chain-of-thought" (catena di pensiero), basata su strategie di apprendimento per rinforzo, finalizzata a potenziare le capacità di ragionamento del sistema.

Il team di ricerca ha valutato o1 in sei compiti medici, sfruttando 37 dataset, inclusi due nuovi task di question-and-answer (QA) più complessi, costruiti a partire da quiz professionali di riviste mediche prestigiose come il New England Journal of Medicine e The Lancet. I risultati indicano che o1 è in grado di comprendere istruzioni mediche e affrontare scenari clinici complessi con un livello di precisione superiore rispetto ai modelli precedenti, come GPT-4, registrando un incremento medio dell'accuratezza rispettivamente del 6,2% e del 6,6% su 19 dataset e nei due nuovi scenari QA.

Nonostante i risultati promettenti, la ricerca condotta da Xie, Wu, Tu, Yang, Zhao, Zong, Jin, Xie e Zhou ha evidenziato alcune criticità, tra cui fenomeni di allucinazione, abilità multilingue incostante e discrepanze nei protocolli di valutazione. Questi limiti suggeriscono che, sebbene il modello o1 abbia mostrato un grande potenziale nell'assistere i medici in decisioni complesse, sono necessari ulteriori miglioramenti, soprattutto in termini di coerenza linguistica e metodologie di valutazione. I dati grezzi e gli output del modello sono stati resi pubblici per stimolare ulteriori sviluppi nel settore https://ucsc-vlaa.github.io/o1_medicine/.

L'AI medica secondo il modello o1 di OpenAI tra progressi e criticità

L'intelligenza, un concetto complesso e sfuggente, ha affascinato psicologi, filosofi e scienziati informatici per anni. Nonostante non esista una definizione unica e condivisa di intelligenza, si accetta ampiamente che essa comprenda un'ampia gamma di abilità cognitive, anziché essere limitata a un compito specifico. Da tempo, la creazione di sistemi artificiali dotati di intelligenza generale rappresenta un obiettivo ambizioso per la ricerca nell'ambito dell'intelligenza artificiale. Negli ultimi anni, i progressi più entusiasmanti in questo settore sono stati raggiunti dai modelli linguistici, a partire dall’introduzione di ChatGPT e dalla sua evoluzione, insieme a vari progetti open-source. I primi pionieri dei grandi modelli linguistici (LLM) avevano come obiettivo comprendere e interagire con gli esseri umani, esplorando meccanismi di ragionamento generalizzabili e costruendo basi di conoscenza con grandi quantità di informazioni di senso comune.

Con l'aumento del numero di parametri e della quantità di dati utilizzati per l’addestramento, la questione di come ottimizzare l'uso del modello da parte degli utenti e di come addestrarlo dal lato degli sviluppatori è diventata un argomento di grande interesse. Sul versante degli utenti, l'applicazione di diverse tecniche di "prompting" (ovvero di stimolazione del modello attraverso specifiche istruzioni) può influire notevolmente sulle prestazioni del modello. Una delle strategie più popolari è il "Chain-of-Thought" (CoT) prompting, che sfrutta i processi di ragionamento interno del modello per migliorare la capacità di risolvere compiti complessi. OpenAI ha integrato questo approccio nel processo di addestramento dei suoi modelli, utilizzando il rinforzo per perfezionare ulteriormente le capacità del modello o1, introdotto di recente.

Sebbene il modello o1 mostri eccellenti prestazioni in ambiti generali, la sua efficacia in settori specialistici come la medicina, dove potrebbe mancare di addestramento specifico, rimane incerta. Inoltre, le attuali valutazioni dei LLM nel campo medico tendono a considerare solo un numero limitato di fattori, come la conoscenza, il ragionamento, la sicurezza o la capacità multilingue. Questa frammentazione rende difficile una valutazione completa delle capacità dei modelli avanzati come o1 in compiti medici complessi.

L'obiettivo dello studio di Yunfei Xie e colleghi è colmare questa lacuna, concentrandosi sul modello o1. Sono stati individuati tre aspetti fondamentali per valutare le capacità dei LLM in ambito medico: comprensione, ragionamento e multilinguismo.

I risultati principali dello studio includono:

- Il modello o1 ha dimostrato un miglior trasferimento delle capacità di comprensione e ragionamento clinico, confermando la sua competenza in scenari diagnostici reali rispetto a modelli sia open-source che closed-source.

- Nessun modello ha eccelso in tutti i compiti nella classifica medica, anche se o1 si avvicina a dominare la maggior parte delle valutazioni.

- Il modello o1 continua a soffrire di problemi di "hallucination" (cioè, l'invenzione di informazioni errate) e incontra difficoltà nei casi medici multilingue complessi.

- Le incongruenze nei parametri di valutazione per i modelli di NLP (elaborazione del linguaggio naturale) in ambito medico possono influenzare significativamente il posizionamento dei modelli, evidenziando la necessità di rivedere e unificare i criteri di valutazione per i futuri LLM.

- Il prompting CoT può ulteriormente migliorare le prestazioni del modello o1 in ambito medico, nonostante questo approccio sia già stato integrato nell'addestramento del modello stesso.

Come i modelli di linguaggio affrontano le sfide del ragionamento complesso in ambito medico

I modelli di linguaggio di grandi dimensioni con capacità avanzate di ragionamento hanno mostrato potenzialità interessanti in diverse attività di comprensione del linguaggio. Questi modelli, basati sulla pre-istruzione per la previsione del token successivo (Touvron et al., 2023a;b; Achiam et al., 2023), sono stati ulteriormente migliorati attraverso il fine-tuning, una tecnica che affina la capacità dei modelli di seguire istruzioni specifiche. Tuttavia, recenti studi hanno evidenziato che tali modelli faticano a gestire compiti complessi che richiedono ragionamenti logici articolati. Per affrontare questa limitazione, alcune ricerche propongono di insegnare ai modelli a imitare i processi di pensiero umano, generando una catena di ragionamenti, nota come Chain-of-Thought (CoT) (Feng et al., 2024; Wei et al., 2022), prima di fornire una risposta finale. Inoltre, il rinforzo tramite apprendimento da feedback umano (Ouyang et al., 2022) è stato utilizzato per migliorare la capacità di ragionamento, garantendo al contempo che i modelli rispettino i valori umani (Tu et al., 2023b;a).

Modelli di uso generale come GPT-4 hanno ottenuto risultati notevoli su problemi medici impegnativi (Nori et al., 2023a; Wu et al., 2024b). Alcuni ricercatori hanno tentato di dotare i modelli di linguaggio di conoscenze biomediche specifiche, perfezionandoli con corpora mirati a questo settore (Chen et al., 2023; Wang et al., 2023; Wu et al., 2024a; Li et al., 2023). Tuttavia, per applicazioni cliniche, i modelli non devono solo comprendere conoscenze mediche settoriali, ma devono anche essere in grado di generare risposte affidabili attraverso un ragionamento logico accurato.

Tassonomia della valutazione dell’AI medica per comprensione ragionamento e multilinguismo

La tassonomia delle valutazioni si concentra su tre aspetti principali delle capacità dei modelli: comprensione, ragionamento e multilinguismo. Questi aspetti sono stati scelti per rispondere alle esigenze pratiche dei medici clinici. Per garantire una valutazione completa, sono stati raccolti compiti e dataset medici che coprono ciascuno di questi aspetti.

Nel contesto di questa valutazione, vengono utilizzate tre strategie di prompting, ovvero:

- Direct prompting: il modello riceve istruzioni dirette per risolvere problemi specifici.

- Chain-of-thought: richiede al modello di elaborare una serie di passaggi logici prima di produrre la risposta finale.

- Few-shot prompting: fornisce al modello alcuni esempi che gli permettono di apprendere in tempo reale la relazione tra input e output.

Per misurare accuratamente le prestazioni del modello, vengono applicate metriche appropriate che confrontano le risposte generate con quelle considerate corrette. I dettagli sulle metriche utilizzate per ogni dataset sono:

- Comprensione: i task in questa categoria includono l'estrazione di entità, come nomi di malattie, sostanze chimiche e organismi da articoli biomedici, e la classificazione di concetti legati al cancro. Alcuni dei dataset utilizzati sono il BC5-disease per l'estrazione delle malattie, il BC5Chem per l'estrazione delle sostanze chimiche e il HoC per la classificazione dei tratti caratteristici del cancro. Le metriche utilizzate per la valutazione della comprensione includono F1-score, BLEU, ROUGE e AlignScore.

- Ragionamento: in questo contesto, i modelli vengono testati per la loro capacità di prendere decisioni diagnostiche, pianificare trattamenti o verificare informazioni sanitarie. Alcuni task qui includono la previsione degli esiti clinici in medicina d'emergenza (come nel dataset MIMIC4ED-Hospitalization), la pianificazione del trattamento per il cancro al seno (SEER) e la verifica delle informazioni sulla salute dal pubblico (PUBHEALTHVer). Anche in questo caso, le metriche di valutazione comprendono l'accuratezza, oltre a metriche come BLEU e ROUGE.

- Multilinguismo: i modelli sono valutati per la loro capacità di gestire interazioni e comprensioni mediche in diverse lingue. Un esempio è il XMedBench, un benchmark multilingue per la comprensione e interazione medica. L'accuratezza è la metrica principale per valutare questo aspetto.

I dataset includono anche quelli dedicati all'interazione tra agenti, come nel caso di AI Hospital, che simula interazioni mediche dinamiche in cinese, e AgentClinic, che simula ambienti clinici con l'uso di agenti virtuali.

Le metriche utilizzate nella valutazione variano a seconda del compito e dei dati. Ad esempio, per i task di estrazione di informazioni e di sintesi di testi vengono impiegati F1-score, BLEU e ROUGE, mentre per compiti come la verifica di informazioni e le decisioni diagnostiche si predilige l'accuratezza.

Valutazione dei modelli AI in ambito medico

L'attività di valutazione si articola in tre elementi fondamentali: aspetto, compito e dataset. Il termine "dataset" non si limita a indicare i dati stessi, ma include anche le metriche utilizzate nel contesto di analisi. Per la valutazione, vengono utilizzati 35 dataset preesistenti e vengono sviluppati 2 nuovi dataset più complessi, portando il totale a 37 dataset. Un "compito" rappresenta un insieme di dataset che condividono un obiettivo comune o misurano capacità simili all'interno del modello. Questi 37 dataset vengono quindi suddivisi in 6 compiti per semplificare il processo di analisi e valutazione. Un "aspetto", invece, fa riferimento a una capacità o proprietà specifica che aiuta a comprendere il rendimento del modello in una determinata area.

Il processo di valutazione si concentra su tre aspetti fondamentali. Il primo aspetto è l'Understanding, ovvero la capacità del modello di utilizzare le sue conoscenze mediche interne per comprendere concetti medici. Ad esempio, nel compito di riconoscimento dei concetti, il modello deve estrarre o elaborare concetti medici da articoli (Savery et al., 2020; Pafilis et al., 2013; Nye et al., 2018) o rapporti diagnostici (Zhao et al., 2023). Nella sintesi di testi, il modello deve comprendere concetti in testi complessi per generare un riassunto conciso (Lee et al., 2021; Wallace et al., 2021; Johnson et al., 2019; 2023).

Il secondo aspetto è il Reasoning, ossia la capacità del modello di compiere più passaggi di ragionamento logico per arrivare a una conclusione. Nei compiti di domande e risposte, il modello deve selezionare l'opzione corretta tra più scelte, basandosi sul ragionamento dedotto dalle informazioni mediche fornite nella domanda. Oltre ai dataset comuni per questo tipo di compito (Jin et al., 2019; Pal et al., 2022; Jin et al., 2021), vengono raccolte domande cliniche reali da riviste come The Lancet, il New England Journal of Medicine (NEJM) e Medbullets (Chen et al., 2024) per valutare l'utilità clinica dei modelli di linguaggio avanzati. Nel compito di suggerimenti clinici, il modello deve fornire raccomandazioni per il trattamento (Dubey et al., 2023; Li et al., 2023) o prendere decisioni diagnostiche (Xie et al., 2022; Fansi Tchango et al., 2022) basandosi sulle informazioni dei pazienti. Nei dataset AI Hospital (Fan et al., 2024) e AgentClinic (Schmidgall et al., 2024), al modello viene richiesto di agire come agente medico. Inoltre, nel dataset MedCalc-Bench (Khandekar et al., 2024), il modello deve eseguire ragionamenti matematici e calcolare.

Il terzo aspetto è la Multilinguality, ovvero la capacità del modello di completare un compito quando la lingua dell'input o delle risposte varia. Ad esempio, il dataset XMedBench (Wang et al., 2024) richiede che il modello risponda a domande mediche in sei lingue diverse, tra cui cinese, arabo, hindi, spagnolo e inglese. Nel dataset AI Hospital (Fan et al., 2024), il modello deve invece agire come agente utilizzando il cinese.

Parametri utilizzati nel processo di valutazione

L'accuratezza viene impiegata per misurare direttamente la percentuale di risposte generate dal modello che corrispondono esattamente alla verità di riferimento, ovvero il dato corretto. Questo indicatore viene utilizzato per i dataset di domande a scelta multipla, il dataset MedCalcBench (Khandekar et al., 2024), e per alcune parti dei dataset relativi a suggerimenti clinici e al riconoscimento di concetti, dove la risposta corretta è costituita da una singola parola o frase.

Il F1-score (Pedregosa et al., 2011) è la media armonica tra precisione e richiamo (recall). Viene utilizzato per i dataset in cui il modello deve selezionare più risposte corrette. La precisione misura la proporzione di risposte corrette tra quelle generate, mentre il richiamo indica la capacità del modello di individuare tutte le risposte corrette. Il F1-score combina questi due aspetti per offrire una valutazione equilibrata delle prestazioni del modello.

I parametri BLEU (Papineni et al., 2002) e ROUGE (Lin & Hovy, 2002) sono metriche tipiche dell'elaborazione del linguaggio naturale (NLP) che misurano la somiglianza tra il testo generato dal modello e quello di riferimento. In particolare, vengono utilizzati BLEU-1 e ROUGE-1 per tutte le attività di generazione libera di testi, ovvero quelle in cui il modello deve produrre risposte non predefinite, come frasi o paragrafi.

L'AlignScore (Zha et al., 2023) è un indicatore utilizzato per valutare la coerenza fattuale del testo generato, cioè quanto il testo prodotto sia fedele alle informazioni corrette. In questo studio, l'AlignScore viene applicato a tutte le attività di generazione libera di testi per valutare il grado di "allucinazione" del modello, ovvero la tendenza a produrre informazioni inesatte o inventate.

Il parametro Mauve (Pillutla et al., 2021) misura la distanza tra la distribuzione del testo generato dal modello e quello scritto da esseri umani. Anche questo indicatore viene impiegato per tutte le attività di generazione libera di testi.

Tutte le metriche descritte hanno un intervallo di valori compreso tra 0 e 100, dove un numero più alto indica una maggiore qualità del risultato prodotto dal modello.

Strategie di prompting per modelli o1, GPT e open source nel settore medico

Nel corso degli esperimenti sono state utilizzate diverse strategie di prompting. Per la maggior parte dei dataset, è stata impiegata la stessa strategia di prompting descritta in letteratura (Wu et al., 2024b; Nori et al., 2023b;a). In particolare, per i compiti di domande e risposte basati sulla conoscenza (Knowledge QA tasks), per i compiti legati agli agenti, per i calcoli medici e per i compiti multilingue, è stato utilizzato il metodo di valutazione del prompting diretto.

Per altri compiti derivati da MedS-Bench (Wu et al., 2024b), sono state seguite le impostazioni del benchmark, applicando una strategia di few-shot prompting (3 esempi). Come suggerito ufficialmente da OpenAI, tecniche di prompting comuni come il Chain-of-Thought (CoT) (Wei et al., 2022) e l'uso di esempi contestuali potrebbero non migliorare le prestazioni del modello "o1", poiché questo modello ha già un'inferenza simile al CoT integrata. Per confermare questa ipotesi, sono stati valutati anche gli effetti di alcune tecniche avanzate di prompting (ad esempio, Self-Consistency (Wang et al., 2022) e Reflex (Shinn et al., 2024)).

Per quanto riguarda i modelli utilizzati per la valutazione, sono stati scelti i seguenti modelli:

- GPT-3.5 (gpt-3.5-turbo0125): un modello linguistico avanzato di OpenAI.

- GPT-4 (gpt-4-0125-preview) (Achiam et al., 2023): successore del GPT-3.5, con significativi miglioramenti nella capacità di ragionamento e comprensione del linguaggio.

- o1 (o1-preview-2024-09-12) (OpenAI, 2024): modello di linguaggio di grandi dimensioni, capace di eseguire ragionamenti altamente complessi utilizzando il ragionamento a catena (chain-of-thought).

Oltre a questi modelli chiusi, sono stati inclusi anche due modelli open source negli esperimenti:

- MEDITRON-70B (Chen et al., 2023): un modello linguistico addestrato su dati specifici del settore medico.

- Llama3-8B (Meta, 2024): attualmente considerato il modello di linguaggio aperto più potente.

Modello o1 AI medica supera GPT-4 e GPT-3.5 nei compiti clinici

Il modello o1 rappresenta un significativo passo avanti verso la creazione di un'AI medica in grado di comprendere e risolvere complessi compiti clinici. Questo progresso è evidente nella capacità del modello di trasferire le sue abilità avanzate di ragionamento e conoscenza, già dimostrate in ambiti come la risoluzione di problemi matematici e la generazione di codice, anche nel contesto clinico. I risultati evidenziano come o1 superi gli altri modelli nella comprensione delle informazioni cliniche nella maggior parte dei compiti. Inoltre, o1 copre un’ampia gamma di dataset medici, offrendo prestazioni superiori rispetto ai modelli GPT-4 e GPT-3.5 in cinque dataset di riconoscimento concettuale, utilizzando l’F1 come metrica. In particolare, o1 migliora le performance di GPT-4 e GPT-3.5 del 7,6% e del 26,6%, con un incremento medio di 24,5% sul dataset BC4Chem.

In aggiunta, o1 si distingue nei compiti di sintesi, ottenendo un incremento del 2,4% e del 3,7% nel punteggio ROUGE-1 rispetto a GPT-4 e GPT-3.5. Questo miglioramento complessivo conferma che i progressi nelle capacità generali di elaborazione del linguaggio naturale (NLP) per i modelli di grandi dimensioni (LLM) possono essere applicati con successo alla comprensione medica. Il modello o1 dimostra anche una solida capacità di ragionamento nei casi di diagnosi clinica. Nei compiti di domanda e risposta (QA), come quelli presenti nei dataset NEJMQA e LacentQA, o1 presenta un miglioramento medio dell’accuratezza dell'8,9% e del 27,1% rispetto alle prestazioni di GPT-4 (79,6%) e GPT-3.5 (61,5%). Inoltre, o1 incrementa la precisione nel ragionamento matematico nel benchmark MedCalc-Bench, con un aumento significativo di 9,4% rispetto a GPT-4, raggiungendo il 34,9%.

In scenari di ragionamento più complessi, che coinvolgono conversazioni a più turni e simulazioni ambientali, o1 supera sia GPT-4 che GPT-3.5 nel benchmark AgentClinic, con guadagni di accuratezza di almeno 15,5% e 10% rispettivamente nei sottoinsiemi MedQA e NEJM. Questi risultati forniscono solide evidenze delle competenze di o1 nella diagnosi reale e nelle situazioni cliniche utili.

Oltre a garantire una maggiore precisione, o1 si distingue per la capacità di fornire risposte più concise e mirate. Mentre o1 genera interpretazioni brevi ma corrette, GPT-4 tende a produrre spiegazioni più lunghe e spesso errate. Il miglioramento di o1 nel campo della conoscenza e del ragionamento è principalmente dovuto agli avanzamenti nell'infrastruttura e ai dati utilizzati durante il processo di addestramento, come l'impiego di dati CoT e l'applicazione di tecniche di apprendimento per rinforzo. Questi risultati confermano che ci stiamo avvicinando sempre di più a un sistema di intelligenza artificiale in grado di fungere da "medico automatico", grazie alle prestazioni del modello o1.

I risultati di accuratezza F1 su quattro compiti chiave evidenziano come o1 eccella in due aspetti principali: il riconoscimento dei concetti e il supporto alle decisioni cliniche, con miglioramenti significativi rispetto a modelli come GPT-4 e GPT-3.5. Ad esempio, nei dataset PMC-Patient e PICO-Outcome, o1 raggiunge rispettivamente un'accuratezza del 76,4% e del 67,5%, superando nettamente le performance degli altri modelli.

I risultati relativi alle metriche BLEU-1 e ROUGE-1 su tre compiti distinti confermano la superiorità di o1 nella sintesi di testi clinici rispetto ai modelli comparati. Ad esempio, nel dataset MIMIC-IV-CT, o1 raggiunge un ROUGE-1 del 26,4%, superando il 22,7% di GPT-4 e il 25,9% di GPT-3.5. Anche nei compiti di riconoscimento dei concetti, come nel dataset BioLORD, o1 si distingue con un ROUGE-1 del 31,8%, dimostrando prestazioni migliori rispetto ai modelli GPT.

o1 domina nel supporto decisionale clinico ma mostra limiti nei compiti complessi

Le varie analisi condotte da Yunfei Xie e colleghi evidenziano che nessun modello di linguaggio eccelle in tutti i compiti nel dominio medico. I risultati indicano chiaramente che, al momento, è necessario accettare compromessi quando si sceglie un modello per applicazioni mediche, anche considerando le stesse metriche di valutazione. Ad esempio, nel supporto decisionale clinico, il modello o1 supera GPT-4 e GPT-3.5 nella maggior parte dei set di dati, ma subisce un calo significativo rispetto a GPT-4 nel dataset MIMIC-IV ED-Critical Triage, con una differenza del 5% in termini di precisione.

Un altro risultato interessante è che il modello Llama 3, un LLM open source di recente pubblicazione, mostra un sorprendente vantaggio di 19.6% in accuratezza rispetto a o1 sul dataset PMC-Patient (76.4% contro 96.0%). Nonostante ciò, o1 rimane uno dei migliori modelli nella maggior parte delle situazioni, detenendo una posizione di leadership nei compiti di supporto decisionale clinico, knowledge question answering (QA) e calcoli medici. Questo è confermato dai risultati medi di accuratezza su 19 dataset, in cui o1 raggiunge il 74,3%, superando GPT-4 con il 68,1% e GPT-3.5 con il 53,2%.

L'uso del "prompting avanzato" si rivela un fattore determinante per migliorare le prestazioni di modelli come o1, specialmente in ambito medico. Anche se o1 è già stato addestrato con l'approccio "chain of thought" (CoT), l'applicazione strategica di questo tipo di prompting consente un incremento medio del 3,18% in termini di accuratezza, partendo da una base dell'83,6%. Questo miglioramento, sebbene meno marcato rispetto a quanto osservato con GPT-4, dimostra che il CoT rappresenta una tecnica promettente per potenziare le capacità di o1 nei task medici. Al contrario, altre tecniche di prompting, come la self-consistency (SC) e il reflex prompting, non solo non apportano miglioramenti, ma determinano addirittura una riduzione delle prestazioni. Nel caso del dataset LancetQA, si registra una diminuzione media del 12,8% rispetto all'uso esclusivo del CoT, evidenziando che queste strategie alternative possono essere meno efficaci in questo contesto specifico.

Un problema persistente nei modelli di linguaggio è rappresentato dal fenomeno delle "allucinazioni". Per valutare questo aspetto, Yunfei Xie e colleghi hanno utilizzato l'AlignScore, una metrica che misura la coerenza del modello. Il modello o1, rispetto a GPT-4, presenta una riduzione dell'1,3% nell'AlignScore su cinque dataset di riepilogo testuale. Inoltre, i miglioramenti complessivi di o1 su tre compiti, sempre misurati in AlignScore, risultano significativamente inferiori rispetto ad altre metriche: mentre il miglioramento medio in AlignScore è di 0,7, secondo Mauve (una metrica che valuta la qualità del testo generato) il miglioramento è pari a 9,9 rispetto a GPT-4. Questi dati suggeriscono che o1, sebbene presenti miglioramenti in termini di qualità testuale, rimane vulnerabile al problema delle allucinazioni linguistiche, confermando quanto questa sfida sia ancora rilevante per i modelli di linguaggio.

Il modello o1 mostra anche difficoltà nel ragionamento su compiti complessi in contesti multilingue. Nonostante il suo ottimo rendimento in compiti di QA multilingue (con una media dell'85.2% rispetto al 75.7% di GPT-4 e al 54.1% di GPT-3.5), o1 fatica quando si confronta con compiti più complessi. o1 mostra un calo del 1.6% in precisione rispetto a GPT-4 nel contesto dell'esame medico (43.4% contro 45.0%). Questa discrepanza potrebbe essere attribuita alla mancanza di dati multilingue CoT durante l'addestramento di o1, poiché il ragionamento complesso richiede un approccio più sofisticato rispetto alle istruzioni semplici, soprattutto nel paradigma di addestramento a pochi esempi.

Un ulteriore aspetto critico riguarda la valutazione dei modelli di linguaggio utilizzando metriche diverse, che possono portare a giudizi contrastanti sulle loro prestazioni. Gli esperimenti condotti suggeriscono che metriche tradizionali di elaborazione del linguaggio naturale (NLP) come BLEU-1, ROUGE-1 e Mauve possono produrre risultati non allineati. Nella maggior parte dei casi, o1 supera GPT-4 nelle misurazioni basate sui riferimenti, come BLEU-1 e ROUGE-1. Un'eccezione interessante emerge nel confronto BLEU-1 per i compiti di suggerimento clinico, dove o1 ottiene un punteggio inferiore a GPT-4 (15.3% contro 16.2%). Inoltre, nonostante o1 superi GPT-4 in BLEU-1 e ROUGE-1 nella media dei compiti di riepilogo testuale, esso risulta inferiore di 2.9 punti in Mauve, anche valutando gli stessi testi generati. Questo fenomeno si riscontra anche nel confronto tra accuratezza e F1 score: mentre Llama3 eccelle in accuratezza in due dataset di riconoscimento dei concetti, o1 lo supera costantemente in termini di F1 score sugli stessi dati.

Questi risultati evidenziano l'urgenza di sviluppare metriche più affidabili per la valutazione dei moderni modelli di linguaggio, poiché le attuali misurazioni possono restituire un quadro incompleto o contraddittorio delle loro reali capacità.

Modello o1 nel NLP medico sfide di elaborazione e confronti con GPT

Il modello o1 ha portato notevoli progressi sia nel campo del Natural Language Processing (NLP) generale che in quello medico, come evidenziato in questo studio. Tuttavia, ci sono anche impatti negativi che emergono rispetto alle generazioni precedenti di LLM. Uno degli aspetti critici di o1 è l'aumento significativo del tempo di elaborazione. Incorporare il processo di Chain of Thought (CoT), che prevede una riflessione articolata prima della generazione del testo, richiede più tempo rispetto ai modelli precedenti. o1 impiega più del doppio del tempo di decoding rispetto a GPT-4 e oltre nove volte quello di GPT-3.5 su quattro compiti medici (13,18 secondi contro 6,89 e 1,41 secondi, rispettivamente). Questo può tradursi in attese considerevoli quando si affrontano compiti complessi.

Inoltre, le prestazioni di o1 non sono sempre superiori a quelle degli altri modelli. In alcuni casi, come evidenziato dal confronto con altri LLM su vari dataset, o1 mostra risultati inferiori. Questo può essere spiegato dal fatto che i CoT sono particolarmente efficaci nei compiti di ragionamento complesso, ma non offrono vantaggi significativi nei compiti più semplici, come il riconoscimento di concetti. Pertanto, le valutazioni basate su compiti che non richiedono un ragionamento articolato possono evidenziare prestazioni meno brillanti di o1 rispetto ad altri modelli.

Un altro punto di riflessione riguarda la necessità di ripensare le metriche di valutazione. Le metriche tradizionali come BLEU e ROUGE, basate sulla sovrapposizione di n-grammi, presentano limiti nel catturare la qualità del testo generato da modelli avanzati come o1. Di conseguenza, sta prendendo piede l'uso di modelli come GPT-4 come valutatori ("LLM-as-a-judge"). Tuttavia, questo approccio potrebbe non essere valido per i modelli di ultima generazione, come o1, in quanto GPT-4 risulta meno performante e potrebbe produrre valutazioni meno affidabili, soprattutto in ambiti specialistici come la medicina. Pertanto, emerge la necessità di sviluppare metriche di valutazione più robuste e sfumate, in grado di valutare adeguatamente le prestazioni degli LLM più avanzati in scenari complessi.

È importante anche considerare l'impatto delle tecniche di prompting avanzate. Non tutte le strategie di prompting contribuiscono positivamente alle prestazioni di o1. Man mano che i modelli di linguaggio, come o1, continuano a evolversi con prompt interni per migliorare l'interazione con l'utente, le nuove tecniche di prompting dovrebbero essere adattabili alle strategie già esistenti. Un'area di potenziale esplorazione potrebbe essere l'integrazione di due strategie di prompting, come suggerito da alcuni studi.

Riguardo ai limiti, benché le valutazioni condotte coprano un ampio spettro di capacità nel dominio medico, inclusi la comprensione, il ragionamento e il multilinguismo, rimangono altre dimensioni da esplorare, come la sicurezza. Questo aspetto sarà oggetto di futuri studi. Inoltre, l'utilizzo di tecniche di prompting avanzate, come la Retrieval-Augmented Generation (RAG), potrebbe migliorare la veridicità delle informazioni e ridurre il fenomeno delle allucinazioni, ma anche questo sarà affrontato in lavori futuri. Va anche notato che i modelli attuali simili a GPT potrebbero ancora non raggiungere le prestazioni di specialisti basati su BERT nei compiti di classificazione. Tuttavia, in questo studio ci si è concentrati sui modelli generici di tipo GPT per la loro maggiore flessibilità nell'apprendimento senza esempi (zero-shot learning).

Conclusioni

La ricerca sull'uso del modello o1 di OpenAI nel contesto medico pone questioni strategiche rilevanti per le aziende attive nei settori sanitario e tecnologico. Il progresso dei modelli di intelligenza artificiale, come o1, nel campo della medicina suggerisce un potenziale significativo per il futuro dell'assistenza sanitaria, ma evidenzia anche le sfide che devono essere affrontate. Un primo punto cruciale è il ruolo dell'AI come supporto alle decisioni cliniche: sebbene i modelli come o1 mostrino capacità avanzate di ragionamento e comprensione, la loro affidabilità non è ancora sufficiente per sostituire completamente il giudizio umano. Questo implica che le aziende sanitarie devono considerare l'AI come un complemento, non un sostituto, e investire in strumenti che aiutino i medici a prendere decisioni più informate piuttosto che automatizzare il processo decisionale.

Il fenomeno delle "allucinazioni" solleva inoltre una preoccupazione centrale per l’adozione dell’AI in ambito clinico. Il rischio che un modello generi informazioni inesatte rappresenta una minaccia significativa per la sicurezza dei pazienti. Questo spinge a riflettere su un aspetto critico per le imprese: la necessità di creare infrastrutture che permettano un controllo rigoroso delle informazioni generate dall'AI, integrando meccanismi di verifica umana e automatica per garantire l'accuratezza delle diagnosi e delle raccomandazioni terapeutiche. L'adozione di questi modelli in ambienti clinici dovrà essere accompagnata da sistemi di responsabilità e tracciabilità, che consentano di individuare con precisione chi o cosa ha contribuito a una determinata decisione clinica.

Un altro aspetto interessante riguarda il problema delle prestazioni multilingue. In un mondo sempre più globalizzato, la capacità di gestire contesti medici in più lingue diventa essenziale. Le aziende che operano nel settore della salute globale devono considerare lo sviluppo di modelli AI che possano adattarsi a diverse lingue e culture, evitando la trappola dell'universalismo tecnologico che presuppone che un unico modello possa funzionare in ogni contesto. Ciò apre spazi per soluzioni localizzate o modelli regionali che rispondano alle specificità linguistiche e culturali, il che potrebbe anche favorire la collaborazione tra attori locali e globali.

La questione delle metriche di valutazione rivela una sfida metodologica significativa. Gli attuali strumenti di misurazione delle prestazioni dell'AI potrebbero non catturare adeguatamente la complessità dei contesti clinici. Questo richiede alle imprese di ripensare le loro strategie di valutazione dell'AI, sviluppando nuovi indicatori che possano misurare aspetti qualitativi, come la capacità di ragionamento logico e la coerenza delle informazioni generate. Per le imprese tecnologiche, potrebbe essere utile collaborare con enti regolatori e istituzioni mediche per definire standard condivisi che riflettano le peculiarità del settore sanitario, creando un ecosistema di innovazione sostenibile e sicuro.

In definitiva, il successo di modelli come o1 nel campo della medicina dipenderà dalla capacità delle aziende di bilanciare l'innovazione tecnologica con l'integrazione nei sistemi sanitari esistenti, salvaguardando al contempo l'affidabilità e la sicurezza. La vera sfida strategica non è solo costruire un'AI medica migliore, ma creare l'ecosistema sociotecnico che le permetta di operare in modo efficace e sicuro, promuovendo la fiducia tra medici, pazienti e istituzioni.