Med-Gemini di Google DeepMind: Intelligenza artificiale per medici e pazienti

Andrea Viliotti
8 mag 2024
Tempo di lettura: 34 min

Aggiornamento: 27 giu 2025

Med-Gemini di Google DeepMind rappresenta una nuova generazione di modelli medici multimodali derivati dalla tecnologia Gemini. Questi modelli si distinguono per i loro progressi nel ragionamento clinico e nelle capacità multimodali in contesti estesi. Sono stati sviluppati per integrare funzionalità di ricerca web e offrono la possibilità di essere adattati a nuove modalità mediche mediante encoder specifici. La loro efficacia è stata confermata attraverso valutazioni su 25 compiti distribuiti in 14 benchmark nel settore medico, dove hanno ottenuto risultati di eccellenza, con una performance del 91,1% su MedQA (USMLE), frutto di una strategia di ricerca guidata dall'incertezza. Med-Gemini si è dimostrato particolarmente competente in 5 dei 7 benchmark medici multimodali, attestando la sua abilità nei contesti più complessi e nella personalizzazione per specifiche modalità, come l'interpretazione degli ECG. Si anticipa che Med-Gemini verrà impiegato in applicazioni pratiche quali la sintesi di note mediche e il question answering basato su registri sanitari elettronici (EHR), anche se sono necessari ulteriori sviluppi per il suo impiego in applicazioni di criticità elevata.

Med-Gemini di Google DeepMind: Intelligenza artificiale per medici e pazienti

La medicina è un campo intrinsecamente complesso e multiforme, che richiede ai clinici di padroneggiare competenze diverse per offrire la migliore assistenza possibile ai pazienti. Le consultazioni quotidiane con i pazienti richiedono non solo la capacità di comunicare chiaramente diagnosi e piani di trattamento, ma anche un approccio empatico per costruire un rapporto di fiducia.

I casi più complessi richiedono un'analisi approfondita della storia clinica del paziente, consultando il record medico elettronico, oltre a un approccio di ragionamento multimodale che includa l'interpretazione di immagini e altre forme di diagnostica. Per gestire l'incertezza, i medici devono rimanere costantemente aggiornati sulle ultime scoperte mediche provenienti da fonti autorevoli, come pubblicazioni scientifiche e video procedurali.

Il successo nella cura dipende dalla capacità del medico di sintetizzare informazioni complesse provenienti da fonti diverse e collaborare con altri specialisti per fornire un'assistenza completa. Sebbene i sistemi di intelligenza artificiale stiano già offrendo supporto in alcuni compiti medici specifici, e abbiano iniziato a mostrare potenziale nell'ambito multimodale e multitasking, c'è un ampio margine per sviluppare strumenti più sofisticati. Questi includono un miglior ragionamento clinico, una comprensione più approfondita di informazioni multimodali e la capacità di assistere i clinici a lungo termine.

L'obiettivo finale è creare strumenti di AI che possano supportare in modo più intuitivo sia i clinici che i pazienti, migliorando la qualità delle cure e semplificando la gestione dei casi complessi.

L'avvento di modelli di linguaggio di grandi dimensioni (LLM) e modelli multimodali di grandi dimensioni (LMM), come GPT-4, PaLM e Gemini, ha dimostrato che tali modelli codificano efficacemente la conoscenza clinica e possono esibirsi nei benchmark di risposta a domande mediche, anche per casi complessi e scenari che richiedono conoscenze specializzate. Tuttavia, la performance in tali compiti è ben lontana dall'indicarne l'utilità nel mondo reale. La natura unica dei dati medici e la critica necessità di sicurezza richiedono un prompting specializzato, un fine-tuning o potenzialmente entrambi, oltre a un attento allineamento di questi modelli.

I grandi modelli linguistici (LLM) ottimizzati per la medicina rappresentano un notevole passo avanti nel fornire risposte a domande mediche complesse e aperte. Ad esempio, Med-PaLM 2 ha dimostrato di superare i medici in termini di accuratezza fattuale, ragionamento, minimizzazione dei danni e riduzione dei pregiudizi. Ma il loro potenziale va oltre il semplice rispondere alle domande. Modelli come Flamingo-CXR e Med-PaLM M si sono dimostrati paragonabili ai radiologi nella generazione di referti radiologici in ambienti controllati, mentre il modello AMIE ha superato i medici di base nelle consulenze diagnostiche basate su testo.

Nonostante questi successi, gli LLM devono ancora affrontare diverse sfide. Il loro ragionamento clinico può essere subottimale in situazioni incerte, e continuano a mostrare confabulazioni e pregiudizi. Hanno anche difficoltà nell'utilizzo di strumenti e informazioni mediche aggiornate e nel collaborare efficacemente con i clinici. Inoltre, la gestione di dati medici multimodali complessi rappresenta un'ulteriore area di miglioramento. Anche se queste sfide sono particolarmente importanti in campo medico, il superamento di tali ostacoli può avere impatti positivi anche in altri settori. I benchmark sviluppati per valutare e migliorare le prestazioni degli LLM medici saranno preziosi in questa direzione.

I modelli Gemini 1.0 e 1.5 rappresentano una nuova generazione di modelli multimodali con capacità innovative, progettati per affrontare queste sfide. Basandosi su architetture avanzate di transformer, ottimizzazioni e un ampliamento dei dati di addestramento, offrono prestazioni affidabili in modalità diverse, tra cui immagini, audio, video e testo. Grazie a queste caratteristiche, la serie Gemini ha il potenziale per innovare l'uso dell'intelligenza artificiale in campo medico, migliorando la capacità dei clinici di fornire diagnosi e trattamenti con maggiore precisione e tempestività.

Med-Gemini: Innovazione AI di Google DeepMind per la medicina personalizzata

Il team di ricerca di Google DeepMind, composto da esperti come Khaled Saab, Tao Tu, Wei-Hung Weng e Ryutaro Tanno, insieme a contributori come David Stutz ed Ellery Wulczyn, e supportato da un gruppo interdisciplinare di Google Research e DeepMind, ha sviluppato Med-Gemini. Questa è una famiglia di modelli di intelligenza artificiale specializzati per la medicina, costruita a partire dalla base dei modelli Gemini.

Il team ha riconosciuto che, benché l'obiettivo di sviluppare un approccio generalista sia affascinante nel campo della ricerca medica, le specifiche esigenze del mondo reale presentano delle sfide e richiedono compromessi che necessitano di ottimizzazioni mirate per ciascun compito, spesso in contrapposizione tra loro. Pertanto, in questo studio, non si è puntato alla creazione di un unico sistema di intelligenza artificiale generalista per la medicina. Al contrario, è stata introdotta una famiglia di modelli specializzati, ognuno dei quali è stato ottimizzato per specifici scenari e diverse capacità applicative.

Questi modelli considerano attentamente fattori come i dati di addestramento disponibili, la potenza di calcolo richiesta e i vincoli di latenza nell'elaborazione, ottimizzando così le prestazioni per fornire soluzioni più efficaci e tempestive a seconda delle necessità cliniche. Med-Gemini è quindi un insieme di strumenti più mirato e adattabile, progettato per soddisfare le varie esigenze della pratica medica moderna.

Med-Gemini eredita le capacità fondamentali dei modelli Gemini nel linguaggio, nelle conversazioni, nella comprensione multimodale e nel ragionamento a lungo termine. Per i compiti basati sul linguaggio, queste capacità sono state potenziate grazie all'uso della ricerca web tramite l'auto-apprendimento e all'introduzione di una strategia di ricerca guidata dall'incertezza durante l'elaborazione dei dati, all'interno di un framework di agenti. Questa combinazione consente al modello di produrre risultati più accurati, affidabili e dettagliati in compiti complessi di ragionamento clinico.

Grazie a queste migliorie, Med-Gemini ha raggiunto prestazioni all'avanguardia con un'accuratezza del 91,1% nel benchmark MedQA (USMLE), un test standardizzato che valuta la conoscenza medica necessaria per la pratica medica negli Stati Uniti, superando i precedenti modelli Med-PaLM 2 del 4,6%.

Med-Gemini di Google DeepMind: Sfruttando l'evoluzione dei modelli Gemini per avanzare nella medicina AI

Il team di Google DeepMind ha sfruttato le caratteristiche dei modelli Gemini per creare una base solida per Med-Gemini. Ad esempio, Gemini 1.0 Ultra eccelle nelle attività linguistiche che richiedono un ragionamento complesso, mentre Gemini 1.5 Pro è in grado di gestire input con milioni di token, ore di video o decine di ore di audio. Gemini 1.0 Nano, invece, è la versione più compatta, ottimizzata per offrire efficienza sui dispositivi.

Med-Gemini, sviluppato sulla base dei modelli Gemini, si focalizza su queste caratteristiche e funzionalità chiave.

Ragionamento avanzato tramite auto-apprendimento e integrazione della ricerca web: Med-Gemini-M 1.0, affinato da Gemini 1.0 Pro, è progettato per compiti linguistici meno complessi, come la sintesi di note mediche e la redazione di lettere di riferimento. Per i compiti di ragionamento più avanzati, Med-Gemini-L 1.0 è stato sviluppato affinando Gemini 1.0 Ultra e adottando un metodo di auto-apprendimento per utilizzare in modo efficiente la ricerca web.

Comprensione multimodale tramite affinamento ed encoder personalizzati: Sebbene i modelli Gemini offrano eccellenti prestazioni zero-shot, cioè la capacità di gestire nuovi compiti senza bisogno di addestramento specifico, su benchmark multimodali, l'eterogeneità delle modalità mediche richiede un affinamento. Med-Gemini-M 1.5, ottimizzato utilizzando Gemini 1.5 Pro, è stato sviluppato per elaborare dataset medici multimodali. Invece, Med-Gemini-S 1.0 utilizza encoder specializzati, sviluppati sulla base di Gemini 1.0 Nano, per adattarsi efficacemente a nuove modalità mediche.

Elaborazione di dati estesi con catena di ragionamento: Med-Gemini-M 1.5 è stato riconfigurato per gestire dati estesi. Inoltre, una nuova tecnica di catena di ragionamento migliora la comprensione delle Cartelle Cliniche Elettroniche (EHR).

Ragionamento avanzato tramite auto-apprendimento e integrazione della ricerca web

Il ragionamento clinico è una competenza fondamentale per una pratica medica di successo. Sebbene sia definito in molti modi, può essere visto come un processo iterativo in cui il medico integra le informazioni iniziali del paziente con le proprie conoscenze cliniche per formare una rappresentazione del caso. Questa rappresentazione guida l'acquisizione iterativa di ulteriori informazioni, fino a raggiungere una soglia di fiducia che consente una diagnosi finale e l'elaborazione di piani di trattamento e gestione.

Durante questo processo, il medico considera diversi input, tra cui sintomi, storia clinica e socioeconomica, risultati di esami di laboratorio, risposte precedenti ai trattamenti e dati epidemiologici. Molti di questi input presentano una componente temporale, come i sintomi che si evolvono nel tempo o le misurazioni di laboratorio ripetute. Inoltre, la conoscenza medica è altamente dinamica, con un rapido aumento delle informazioni disponibili a causa dell'intenso ritmo della ricerca. Pertanto, gli LLM dovrebbero possedere non solo solide capacità di ragionamento, ma anche la capacità di integrare informazioni aggiornate da fonti autorevoli sul web. Questa integrazione ha il potenziale per ridurre l'incertezza nelle risposte, richiedendo però un approccio accurato nel recupero e nell'uso delle informazioni.

L'obiettivo stabilito dal team di ricerca con l'ottimizzazione medica di Gemini 1.0 Ultra è migliorare la capacità del modello nel formulare le query di ricerca web più rilevanti e integrare i risultati nel processo di ragionamento per fornire risposte accurate. Il risultato di questi sforzi è Med-Gemini-L 1.0.

Dataset di perfezionamento per compiti basati sul linguaggio

La raccolta di dimostrazioni esperte di ragionamento clinico, compreso l'uso degli strumenti di ricerca web, richiede tempo e risorse e non è facilmente scalabile.

Per risolvere questa sfida, sono stati creati due nuovi dataset attraverso l'auto-apprendimento:

MedQA-R (Reasoning): Un'estensione di MedQA che include spiegazioni di ragionamento generate sinteticamente, chiamate "Chain-of-Thoughts" (CoTs). Questo approccio fornisce una catena di pensiero dettagliata che guida il processo di risposta.

MedQA-RS (Reasoning and Search): Un'estensione di MedQA-R che aggiunge istruzioni per utilizzare i risultati della ricerca web come contesto aggiuntivo per migliorare l'accuratezza delle risposte. Questo aiuta a integrare informazioni esterne rilevanti nel processo decisionale.

Per ampliare ulteriormente la varietà dei dati di perfezionamento per Med-Gemini-L 1.0, sono stati aggiunti due dataset aggiuntivi:

Question answering: Un set di 260 risposte dettagliate fornite da esperti a domande provenienti da HealthSearchQA, LiveQA e MedicationQA, tutte incluse nel benchmark MultiMedQA.

Sintesi medica: Un set di 65 riassunti clinici scritti da medici, basati su note mediche provenienti da MIMIC-III.

Questi dataset diversificati contribuiscono a migliorare le capacità di ragionamento clinico dei modelli Med-Gemini-L 1.0, fornendo risposte più accurate, dettagliate e affidabili per il question answering medico.

Auto-apprendimento con ricerca

Ispirato dai recenti progressi dell'auto-apprendimento nella generazione di dati sintetici, il team ha sviluppato un framework iterativo per creare esempi sintetici di alta qualità di ragionamento clinico che incorporano la ricerca web.

Questo framework genera due percorsi di ragionamento, o Catene di Pensiero (CoTs), per ogni domanda: una senza accesso a fonti esterne e un'altra che integra risultati di ricerca web come contesto aggiuntivo.

Il framework di auto-apprendimento con ricerca è composto da questi elementi chiave:

Ricerca web: Per ogni domanda, Med-Gemini-L 1.0 genera query di ricerca utili per rispondere alla domanda medica. Le query vengono inviate a un'API di ricerca web e i risultati recuperati forniscono un contesto aggiuntivo.

Dimostrazioni in contesto: Il team ha preparato manualmente cinque spiegazioni dettagliate per ogni possibile risposta, illustrando ragionamenti clinici chiari e spiegando perché una risposta è migliore delle altre. Inoltre, quando le domande si basano su risultati di ricerca specifici, vengono citate le informazioni pertinenti da questi risultati per motivare la scelta della risposta.

Generazione di CoTs: Med-Gemini-L 1.0 viene stimolato a generare catene di pensiero utilizzando le dimostrazioni in contesto. I CoTs che portano a previsioni errate vengono filtrati prima di affinare il modello.

Ciclo di miglioramento: Dopo aver ottimizzato Med-Gemini-L 1.0 con i CoTs (catene di ragionamento) generati, il modello aumenta la sua capacità di adottare uno stile di ragionamento dettagliato e di incorporare spiegazioni esperte. Successivamente, il modello ottimizzato viene usato per creare nuove catene di ragionamento, e questo processo di auto-miglioramento continua a ripetersi fino a che non si raggiunge un livello massimo di prestazioni.

Questo approccio iterativo migliora la qualità del ragionamento clinico e la precisione delle risposte del modello, integrando efficacemente le ricerche web e consentendo a Med-Gemini-L 1.0 di fornire risposte sempre più accurate e contestualizzate.

MedQA-RS

Per spiegare come funziona MedQA-RS, prendiamo in considerazione un esempio pratico che include un prompt di input, i risultati ottenuti da una ricerca sul web e una Catena di Pensiero (CoT) creata per migliorare Med-Gemini-L 1.0.

Questo esempio segue un processo iterativo guidato dall'incertezza, che consiste in quattro passaggi:

1) Generazione di molteplici percorsi di ragionamento: Med-Gemini-L 1.0 genera vari percorsi di ragionamento per rispondere alla domanda medica data nel prompt di input. Durante la prima iterazione, il prompt contiene solo la domanda. Nelle iterazioni successive, si aggiungono i risultati della ricerca recuperati nel passaggio 4.

2) Attivazione della ricerca basata sull'incertezza: Dopo aver valutato i diversi percorsi di ragionamento elaborati nel primo passaggio, si misura quanto le opzioni di risposta sono incerte utilizzando l'entropia di Shannon, una tecnica che quantifica l'incertezza. Se questa misura supera un valore limite stabilito, si inizia una ricerca dettagliata per ridurre l'incertezza nei passaggi 3 e 4. Se l'incertezza è bassa, la risposta più comune viene scelta come definitiva.

3) Generazione di query di ricerca guidata dall'incertezza: Quando ci sono risposte che si contraddicono, Med-Gemini-L 1.0 crea tre domande specifiche da cercare online. L'obiettivo di queste query è trovare informazioni precise che aiutino a chiarire i dubbi emersi.

4) Recupero della ricerca: Le query vengono inviate a un motore di ricerca web, e i risultati recuperati vengono integrati nel prompt per la successiva iterazione, ricominciando dal passaggio 1. Questo arricchimento del prompt con i risultati della ricerca consente a Med-Gemini-L 1.0 di perfezionare le risposte integrando le informazioni esterne.

Questo processo iterativo consente a Med-Gemini-L 1.0 di perfezionare progressivamente le proprie risposte, attingendo a informazioni esterne e migliorando la capacità del modello di rispondere con maggiore accuratezza alle domande mediche complesse.

Comprensione multimodale tramite affinamento ed encoder personalizzati

Per migliorare le abilità di Gemini nel ragionamento multimodale e nelle conversazioni nel settore medico, il team ha aggiornato le istruzioni di Gemini utilizzando una serie di compiti specifici per l'ambito medico. Hanno utilizzato otto compiti multimodali, applicati su sei diversi insiemi di dati.

Affinamento multimodale da immagine a testo

L'affinamento multimodale da immagine a testo si basa su quattro dataset da MultiMedBench (Slake-VQA, Path-VQA, MIMIC-CXR e PAD-UFES-20) insieme al dataset Radiology Objects in COntext (ROCO). Questi dataset forniscono compiti di question answering visivo, classificazione e didascalia delle immagini in vari domini clinici:

Slake-VQA e Path-VQA: Slake-VQA si concentra sul question answering visivo sia aperto che chiuso nell'ambito della radiologia, mentre Path-VQA fa lo stesso per la patologia.

ROCO (Radiology Objects in COntext): Un dataset con didascalie per immagini radiologiche in molteplici modalità di imaging, tra cui tomografia computerizzata (CT), ecografia, radiografia, fluoroscopia, mammografia, angiografia, tomografia a emissione di positroni (PET) e risonanza magnetica (MRI).

PAD-UFES-20: Un dataset specifico per il dominio dermatologico, contenente etichette diagnostiche e informazioni cliniche dei pazienti per la classificazione delle immagini.

MIMIC-CXR: Comprende immagini di radiografie del torace (CXR), referti testuali corrispondenti e un insieme di etichette discrete indicanti la presenza di 13 condizioni radiologiche anomale. Le etichette sono derivate utilizzando il labeler CheXpert, e il dataset viene usato sia per la generazione dei referti CXR che per la classificazione delle immagini.

Per ciascuno di questi compiti, il modello Gemini 1.5 Pro è stato affinato con istruzioni specifiche. La miscelazione dei compiti avviene in proporzione al numero di campioni di formazione per ogni dataset. Il modello finale, Med-Gemini-M 1.5, offre una capacità avanzata di interpretare e generare testo da immagini mediche in diversi contesti clinici, migliorando così la precisione nella generazione dei referti e nella classificazione delle immagini.

Miglioramento della gestione dei dati sanitari con nuovi encoder per diversi tipi di segnali

L'integrazione di vari segnali sanitari nei modelli medici può offrire un notevole potenziamento per il processo decisionale clinico. Tra questi segnali troviamo dati provenienti da dispositivi indossabili, come il monitoraggio della frequenza cardiaca e dei livelli di attività, informazioni genomiche, dati nutrizionali come immagini dei pasti e fattori ambientali come le misurazioni della qualità dell'aria.

Per dimostrare questo concetto, Med-Gemini-S 1.0 è stato potenziato partendo da Gemini 1.0 Nano e integrando un encoder specializzato. Questo encoder utilizza un meccanismo di cross-attenzione simile a quello di Flamingo, un modello AI noto per la sua capacità di integrare testo e immagini. Grazie a questa tecnologia, il modello può rispondere a domande direttamente da un input costituito da un'onda elettrocardiografica (ECG) a 12 canali.

Med-Gemini-S 1.0 è stato addestrato utilizzando un sottoinsieme di esempi etichettati dal dataset ECG-QA e si concentra su domande a risposta chiusa, cioè domande che richiedono la scelta di una risposta da un elenco limitato di opzioni predefinite. Questo approccio consente al modello di trattare segnali biomedici come gli ECG, migliorando la precisione e l'affidabilità delle risposte cliniche che fornisce.

Elaborazione di ampli contesti tramite sollecitazione di istruzioni e catena di ragionamento

Numerose applicazioni mediche richiedono l'analisi di grandi quantità di informazioni, insieme a un livello di esperienza elevato per identificare dettagli sottili. Med-Gemini-M 1.5 è stato valutato su compiti medici complessi che richiedono l'elaborazione di informazioni dettagliate in grandi quantità.

In particolare, è stato impiegato in due tipi di applicazioni:

Recupero "ago nel pagliaio": Questo compito riguarda l'estrazione di informazioni chiave da note e registrazioni nelle cartelle cliniche elettroniche (EHR). Richiede un attento lavoro di selezione e identificazione di dettagli cruciali tra un volume significativo di dati.

Comprensione di video medici: Alcune applicazioni mediche richiedono l'analisi di contenuti video per acquisire dettagli importanti per il trattamento o la diagnosi. Med-Gemini-M 1.5 è stato testato su questi compiti per valutare la sua capacità di elaborare dati multimodali.

Per affrontare questi contesti, sono state progettate varie strategie di sollecitazione e catene di ragionamento, che consentono a Med-Gemini-M 1.5 di gestire con precisione le informazioni e ragionare su contesti complessi. Questo approccio rende il modello in grado di ricordare dettagli importanti e di effettuare analisi accurate, offrendo così un supporto prezioso per i professionisti sanitari.

Catena di ragionamento per la comprensione di EHR

La ricerca e il recupero di informazioni clinicamente rilevanti da note estese e registrazioni delle EHR (Electronic Health Records) è un compito fondamentale nella cura dei pazienti, ma richiede un'elevata precisione e affidabilità per migliorare l'efficienza dei medici e ridurre il loro carico di lavoro. Spesso, i clinici creano un riassunto delle condizioni storiche, dei sintomi o delle procedure del paziente, noto come "lista dei problemi". Tuttavia, questo processo può essere complesso e laborioso, soprattutto per i pazienti con registrazioni mediche estese. La difficoltà è amplificata da vari fattori che complicano il recupero efficace delle informazioni dalle EHR.

Principali sfide

Espansione delle query e corrispondenza: I metodi tradizionali per ampliare le ricerche possono avere difficoltà quando si incontrano testi simili per condizioni mediche affini, diversi modi di esprimere gli stessi termini, e variazioni nella scrittura dei termini medici (ad esempio, "rx" usato per "prescrizione" o "sindrome di Miller Fisher" al posto di semplicemente "Miller").

Struttura dei dati eterogenea: Gli EHR spesso presentano una struttura di dati eterogenea, come il modello checklist: “[] tosse [x] mal di testa”, dove la menzione non indica necessariamente la presenza effettiva di una condizione.

Contestualizzazione: Il contesto della menzione può influenzarne l'interpretazione. Ad esempio, una condizione menzionata nella “Storia Familiare” di un paziente può avere un significato diverso rispetto alla stessa condizione menzionata nella “Anamnesi”.

Acronimi polisemici: Acronimi con significati multipli nelle note mediche possono condurre a interpretazioni errate.

Soluzione proposta con Med-Gemini

Le sfide sopra descritte evidenziano la necessità di sistemi di AI in grado di recuperare informazioni in modo consapevole del contesto da registri EHR, identificando condizioni, farmaci o procedure rare o sottili. Questo rappresenta un benchmark pratico per valutare l'efficacia di Med-Gemini.

Metodo

Compito di comprensione EHR: Basato su ricerche precedenti, il team ha sviluppato un insieme di casi complessi da MIMIC-III, simulando uno scenario clinicamente rilevante di "ago in un pagliaio".

Approccio in due Fasi: Utilizzando Med-Gemini-M 1.5 con una finestra di contesto lunga, il processo si articola in due passaggi:

1) Recupero delle menzioni: Med-Gemini-M 1.5 recupera tutte le menzioni pertinenti al problema specifico con una singola dimostrazione.

2) Determinazione della presenza: Valuta la presenza del problema basandosi sulle menzioni recuperate.

Metodo di confronto

Il metodo euristico di annotazione-aggregazione precedentemente descritto serve come confronto di base per Med-Gemini-M 1.5. Questo metodo richiede un'elaborata ingegneria manuale per determinare l'esistenza di condizioni da un insieme di registri medici. Sebbene efficace, copre solo un insieme limitato di condizioni e necessita di ulteriori adattamenti per includere nuove condizioni.

Linee guida per l'analisi di video medici

L'analisi di video chirurgici e procedurali è un elemento chiave della ricerca nell'ambito dell'intelligenza artificiale applicata alla medicina. Grazie ai progressi nella visione artificiale, emergono nuove applicazioni come la segmentazione semantica, che consiste nel dividere un'immagine in parti che hanno significato specifico, il rilevamento e il tracciamento degli strumenti, e la classificazione delle azioni. Queste innovazioni possono trasformare il modo in cui comprendiamo e valutiamo le procedure mediche.

Tuttavia, una sfida significativa è data dalle limitazioni nel comprendere le relazioni e le dipendenze a lungo termine nei video, a causa delle ridotte capacità di analisi contestuale dei modelli che integrano linguaggio e immagini. Med-Gemini-M 1.5 supera questa barriera grazie alla sua abilità di analizzare dati su periodi prolungati, permettendo così l'esame completo di interi video per riconoscere schemi visivi e azioni su archi temporali estesi.

Per migliorare le capacità di Med-Gemini-M 1.5 nell'analisi dei video medici, si impiega un approccio zero-shot, che permette al modello di eseguire compiti per i quali non è stato specificamente addestrato, basandosi su istruzioni dettagliate per ciascun compito.

In particolare, il modello deve essere in grado di analizzare sia la query linguistica sia il contenuto del video per eseguire compiti come:

Localizzazione della Risposta Visiva Medica (MVAL): Identificare e localizzare la porzione del video che corrisponde alla query, fornendo la risposta visiva corretta.

Valutazione della Vista Critica di Sicurezza (CVS): Identificare con precisione le viste chirurgiche nei fotogrammi video, assicurando che tutte le strutture critiche siano chiaramente visibili e adeguatamente posizionate.

Questi compiti richiedono una comprensione dettagliata e contestualizzata dei video per facilitare il riconoscimento delle fasi procedurali, degli strumenti e delle azioni rilevanti.

Valutazione completa delle prestazioni di Med-Gemini: Dall'analisi testuale alla comprensione multimodale e dei contesti estesi

Le aree per valutare il rendimento di Med-Gemini sono tre, e comprendono:

Ragionamento basato su testo: Misura l'abilità di Med-Gemini nel comprendere e interpretare le informazioni cliniche testuali.

Compiti multimodali: Valuta la capacità del modello di integrare e analizzare dati provenienti da diverse modalità, come immagini, audio e video.

Elaborazione di contesti estesi: Testa le prestazioni del modello nell'analizzare registri medici con informazioni estese.

Questi benchmark dimostrano come Med-Gemini possa offrire prestazioni solide in un'ampia gamma di attività nel campo medico.

Valutazione del ragionamento avanzato su compiti basati su testo

La valutazione delle capacità di ragionamento medico di Med-Gemini-L 1.0 viene eseguita attraverso tre benchmark testuali, progettati per misurare il ragionamento clinico e la capacità di ridurre l'incertezza mediante la ricerca web.

MedQA (USMLE): Un dataset con 1.273 domande a scelta multipla in stile USMLE (4 opzioni). Le domande sono progettate per testare le competenze mediche.

Metodo: Seguire il formato input-output e le metriche di valutazione descritte da Singhal et al. (2023), utilizzando l'accuratezza delle previsioni come metrica. Durante l'inferenza, vengono eseguite quattro iterazioni di ricerca guidata dall'incertezza.

Etichettatura: I medici certificati negli Stati Uniti ricontrollano e rietichettano il set di test per individuare domande con errori di etichettatura, ambiguità o informazioni mancanti. Questo processo consente una migliore caratterizzazione delle prestazioni del modello.

NEJM CPC (Conferenze Clinico-Patologiche del New England Journal of Medicine): Un dataset con casi clinico-patologici complessi pubblicati sul New England Journal of Medicine.

Metodo: Il modello è progettato per elencare dieci possibili diagnosi per ogni caso presentato. Le prestazioni vengono misurate utilizzando due indicatori: l'accuratezza della prima diagnosi suggerita (top-1) e l'accuratezza tra le prime dieci diagnosi suggerite (top-10), seguendo metodi simili a quelli di MedQA. Durante il processo di analisi, il modello esegue una ricerca dettagliata guidata dalle incertezze riscontrate.

GeneTuring: Un dataset con 600 coppie di domande e risposte progettate per valutare le conoscenze genomiche dei modelli di linguaggio di grandi dimensioni.

Metodo: Il dataset è composto da 12 moduli, ognuno dei quali contiene 50 coppie di domande e risposte. L'accuratezza delle previsioni del modello è utilizzata come criterio di valutazione, seguendo il metodo descritto da Hou e Ji (2023). Non si prendono in considerazione i casi in cui il modello sceglie di non rispondere o le risposte non sono dirette. Durante l'analisi, viene attuata una ricerca dettagliata basata sull'incertezza, simile a quella usata nel NEJM CPC, che sta per "New England Journal of Medicine Clinical Problem-Solving", un approccio che mira a migliorare il processo di diagnosi attraverso casi clinici complessi.

Oltre ai test standard, Med-Gemini-M 1.0 viene anche valutato in tre complessi scenari pratici che richiedono la creazione di testi dettagliati.

Un gruppo di clinici valuta le risposte del modello comparandole con quelle di esperti umani mediante un metodo di confronto anonimo:

Riassunto medico: Il modello crea un riassunto post-visita (AVS) partendo da note mediche anonime. Questo riassunto aiuta i pazienti a comprendere meglio il loro piano di cura.

Generazione di lettere di riferimento: Genera una lettera di riferimento per un altro professionista sanitario utilizzando note mediche ambulatoriali anonime.

Semplificazione medica: Trasforma un riassunto tecnico di uno studio approfondito in un testo facile da capire per il pubblico. Questo testo, denominato "riassunto in linguaggio semplice" (PLS), è redatto in un linguaggio chiaro e diretto, ideale per chi non ha una formazione medica.

Valutazione delle capacità multimodali

Per valutare Med-Gemini su domande e risposte visive multimodali (VQA), sono stati utilizzati sette benchmark:

Valutazione standard

PAD-UFES-20: Dermatologia.

Slake-VQA: Radiologia in inglese e cinese.

Path-VQA: Patologia per Med-Gemini M 1.5.

ECG-QA: Cardiologia per Med-Gemini S 1.0.

Valutazione inter-specialità

Sfida di immagini del NEJM: Challenge diagnostico del New England Journal of Medicine.

USMLE-MM (Multimodale): Benchmark multimodale in stile USMLE.

MMMU-HM (Salute e Medicina): Dataset specifico per salute e medicina.

Questi ultimi tre benchmark non sono stati utilizzati per l'addestramento o il perfezionamento del modello, quindi Med-Gemini-L 1.0 è stato valutato senza alcun aggiustamento ulteriore specifico per le diverse modalità.

Metodologia di valutazione

Domande a scelta multipla chiusa: Per i benchmark come PAD-UFES-20, la Sfida di Immagini del NEJM, USMLE-MM, e la maggior parte delle domande in MMMU-HM, si usano domande a scelta multipla con risposte predefinite.

ECG-QA: L'accuratezza viene determinata valutando la corrispondenza esatta tra le risposte del modello e le risposte corrette.

Domande a risposta aperta: Per Slake-VQA e Path-VQA, la valutazione si basa sul punteggio F1, che misura la precisione a livello di singoli token nelle risposte fornite.

Capacità multimodali in dialogo diagnostico

Med-Gemini-M 1.5 è stato valutato qualitativamente in dermatologia e radiologia attraverso un dialogo diagnostico multimodale. Un panel di esperti clinici ha esaminato gli esempi di dialoghi, fornendo una valutazione qualitativa. Questi esempi mostrano "l'arte del possibile", ma sono necessarie ulteriori ricerche e verifiche prima dell'uso in contesti di assistenza clinica per garantire sicurezza ed efficacia.

Valutazione delle capacità di analisi di informazioni dettagliate in contesti video e registri sanitari

Compiti per Med-Gemini-M 1.5:

Analisi di note dettagliate e non strutturate dei registri sanitari elettronici (EHR): Valutare la capacità del modello di comprendere documenti medici complessi.

Domande e risposte su video educativi medici: Testare la capacità del modello di rispondere a quesiti basati su contenuti video didattici.

Valutazione della "Critical View of Safety" (CVS) in video chirurgici: Misurare l'efficacia del modello nel riconoscere e valutare aspetti cruciali di sicurezza durante le procedure chirurgiche attraverso l'analisi video.

Comprensione di note EHR

Per testare la capacità di Med-Gemini-M 1.5 di ragionare su contesti estesi, è stato sviluppato il compito "MIMIC-III-Needle-in-a-Haystack." L'obiettivo è recuperare i frammenti di testo pertinenti per una determinata condizione medica (condizione/sintomo/procedura) da una vasta raccolta di note cliniche non strutturate e determinare la presenza della condizione attraverso un ragionamento basato sulle prove.

Criteri

Numero di pazienti: 44 pazienti unici dall'ICU.

Numero di note: Più di 100 note per paziente (senza contare i dati strutturati). Ogni esempio contiene tra 200.000 e 700.000 parole.

Menzioni uniche: Ogni condizione viene menzionata una sola volta in tutte le note.

Condizione unica: Ogni campione si focalizza su una singola condizione di interesse.

Etichetta binaria: Ogni campione ha un'etichetta binaria che indica la presenza o meno della condizione, determinata tramite il voto della maggioranza di tre medici valutatori.

Set di Test

Numero di esempi: 200.

Casi positivi: 121.

Casi negativi: 79.

Nel contesto del test, le prestazioni di Med-Gemini-M 1.5, impiegato in modalità one-shot, sono messe a confronto con un metodo tradizionale di annotazione e aggregazione basato su euristiche. Per valutare l'efficacia di questi due approcci nel determinare con precisione la presenza di una condizione medica, vengono utilizzate specifiche metriche, come la precisione e il recall.

L'obiettivo principale di questo benchmark è dimostrare la capacità di Med-Gemini-M 1.5 di interpretare note cliniche EHR complesse e di effettuare ragionamenti accurati sulle condizioni mediche analizzando contesti informativi estesi. Questa prova mette in luce come il modello possa gestire e processare grandi quantità di dati per fornire diagnosi affidabili e ben informate.

Comprensione video

Localizzazione delle Risposte Visive Mediche (MVAL)

Dataset MedVidQA: Viene utilizzato per due compiti MVAL, in cui Med-Gemini-M 1.5 deve localizzare risposte visive specifiche all'interno di video istruttivi medici.

Valutazione della Critical View of Safety (CVS)

Dataset Cholec80: Contiene video di colecistectomia laparoscopica.

Dataset Cholec80-CVS: Include annotazioni dettagliate dei clip video relativi ai criteri della Critical View of Safety.

CVS Protocol: Questo protocollo assicura l'identificazione sicura del dotto cistico e dell'arteria cistica, riducendo il rischio di lesione del dotto biliare (BDI).

Dettagli del Dataset Cholec80-CVS

Ogni clip video è etichettato con un punteggio da 0 a 2 per ciascuno dei tre criteri CVS.

Tutti i fotogrammi in un dato clip condividono la stessa annotazione.

Numero di clip annotati: 572.

Valutazione

Obiettivo: Med-Gemini-M 1.5 deve prevedere quali criteri CVS sono soddisfatti in ogni clip video.

Metrica: Viene calcolata l'accuratezza media delle risposte rispetto alle annotazioni Cholec80-CVS.

Riconoscimento delle azioni chirurgiche

Dataset AVOS: Una collezione di video di chirurgia aperta caricati su YouTube, con esempi annotati.

Obiettivo: Valutare qualitativamente la capacità di Med-Gemini-M 1.5 nel riconoscere le azioni chirurgiche all'interno di questi video.

Risultati Attesi

Queste valutazioni dimostrano la capacità di Med-Gemini-M 1.5 di comprendere contesti video complessi e localizzare informazioni rilevanti, nonché riconoscere azioni chirurgiche specifiche nei video procedurali.

Risultati dei Benchmark: Med-Gemini eleva le prestazioni nell'IA medica

La vasta gamma e la diversità dei compiti analizzati in questo studio rappresentano l'approccio più esaustivo adottato fino ad ora per i modelli di linguaggio avanzati nel settore sanitario. Le valutazioni di Med-Gemini vanno oltre il semplice test delle sue funzionalità, includendo compiti che mostrano il suo valore pratico, come la creazione di sintesi mediche, la gestione di conversazioni in formati diversi e l'analisi di video chirurgici.

Med-Gemini-L 1.0 ha raggiunto un'accuratezza del 91,1% nel benchmark MedQA (USMLE), stabilendo un nuovo punto di riferimento e superando di 4,5% il modello precedente, Med-PaLM 2, e di 0,9% i risultati ottenuti con MedPrompt, che è basato su GPT-4 e utilizza sollecitazioni specializzate. A differenza di MedPrompt, Med-Gemini utilizza la ricerca web generica all'interno di un sistema che si adatta all'incertezza, rendendolo particolarmente versatile per applicazioni più complesse.

Per dimostrare la sua capacità di adattamento e applicazione generale, nel benchmark NEJM CPC, che tratta di sfide diagnostiche complesse, Med-Gemini-L 1.0 ha superato il precedente modello di punta, AMIE (già migliore rispetto a GPT-4), migliorando la precisione del 13,2% nella classifica delle prime 10 risposte.

Questa stessa strategia di ricerca è stata efficace anche nei compiti di genetica. Med-Gemini-L 1.0 ha superato altri modelli di riferimento in sette aree del progetto GeneTuring, includendo l'identificazione e la categorizzazione dei geni, la localizzazione, e le loro funzioni e regolazioni. Inoltre, è stata analizzata la frequenza con cui il modello decide di non fornire una risposta nei 12 moduli testati. È importante notare che, sebbene GeneGPT abbia ottenuto punteggi superiori grazie all'uso di API web specializzate, il confronto si è focalizzato su modelli che, come Med-Gemini, utilizzano tecniche di ricerca web più generaliste.

Effetti dell'autoapprendimento e della ricerca guidata dall'incertezza sulle prestazioni di Med-Gemini-L 1.0

Per valutare l'effetto dell'autoapprendimento e della ricerca guidata dall'incertezza sulle prestazioni del modello, il team ha eseguito test confrontando le prestazioni di Med-Gemini-L 1.0 sia con che senza l'impiego dell'autoapprendimento. Hanno inoltre integrato diversi cicli di ricerca guidata dall'incertezza per il dataset MedQA (USMLE). I risultati mostrano che Med-Gemini-L 1.0 registra un miglioramento significativo, con un incremento del 3,2% in accuratezza, quando utilizza l'autoapprendimento. In particolare, l'accuratezza è aumentata dal 87,2% al 91,1% attraverso successive iterazioni di ricerca. Analogamente, per il benchmark del NEJM CPC, l'introduzione della ricerca guidata durante l'analisi dei dati ha portato a un aumento del 4,0% nella precisione delle prime 10 risposte.

Rivalutazione delle etichette di MedQA (USMLE)

MedQA (USMLE) rappresenta un benchmark fondamentale per misurare le prestazioni dei Large Language Models (LLM) nel settore medico. Tuttavia, è emerso che alcune delle domande di questo test presentano carenze, come la mancanza di figure o dati di laboratorio essenziali, e risposte che possono essere considerate obsolete. Per risolvere questi problemi, è stato intrapreso un processo completo di rietichettatura del set di test MedQA (USMLE).

Questo processo ha coinvolto la partecipazione di almeno tre medici statunitensi per ciascuna domanda, incaricati di rispondere e valutare le risposte standard fornite. È stato loro richiesto di identificare qualsiasi mancanza informativa nelle domande e, attraverso un approccio di valutazione bootstrap con tre revisori per domanda, di decidere quali domande escludere per mancanze informative o errori nelle etichette. Inoltre, sono state individuate le domande ambigue che potevano ammettere più risposte corrette.

Dai risultati medi dei comitati bootstrap, si è scoperto che il 3,8% delle domande era carente di informazioni necessarie, con un consenso unanime dei comitati. Il 2,9% delle domande è stato rilevato come probabile portatore di errori di etichettatura, e lo 0,7% è stato considerato ambiguo. L'esclusione di queste domande ha ricevuto un forte sostegno dai valutatori, con percentuali di consenso del 94%, 87,6% e 94,6% rispettivamente.

È importante notare che una porzione significativa degli errori del modello Med-Gemini-L 1.0 può essere attribuita a questi problemi. Inoltre, l'indice di incertezza, misurato tramite l'entropia, tende a essere più elevato per queste domande (test t, 𝑝-value=0.033). Rimuovendo tali domande, l'accuratezza è migliorata, passando dal 91,1% al 91,8% ± 0,2%. Adottando criteri di maggioranza piuttosto che di unanimità, l'accuratezza è ulteriormente aumentata al 92,9% ± 0,38%, escludendo fino al 20,9% delle domande incerte.

Med-Gemini: Un modello all'avanguardia nel comprendere diversi tipi di contenuti medici

Med-Gemini si è dimostrato capace nel gestire diversi tipi di compiti che combinano testo e immagini nel settore medico. Questo modello si è distinto o ha tenuto testa ai migliori metodi disponibili in sette diversi test. In particolare, Med-Gemini-L 1.0 ha impostato nuovi record in tre specifici compiti di domande e risposte visive: ha superato di gran lunga altri modelli come GPT-4V nei test delle immagini del New England Journal of Medicine, nelle domande multimodali dell'USMLE, e nel sottoinsieme di salute e medicina di MMMU, con miglioramenti notevoli nelle prestazioni.

Parallelamente, un'altra versione del modello, Med-Gemini-M 1.5, ha superato i precedenti modelli multimodali migliorando significativamente nelle valutazioni di patologia visiva, e Med-Gemini-S 1.0 ha ottenuto risultati superiori nella valutazione di domande basate su ECG, migliorando la media di accuratezza rispetto a versioni precedenti di modelli come GPT-4.

Il modello Med-Gemini-M 1.5 ha anche mostrato ottimi risultati in altre due valutazioni, Slake-VQA e PAD-UFES-20, tenendo il passo con i migliori standard precedenti.

Inoltre, la valutazione del benchmark PAD-UFES-20 è stata effettuata in due modi diversi: inizialmente si è confrontato il modello con il precedente utilizzando le stesse divisioni di immagini, e poi si sono valutate le prestazioni con una nuova suddivisione basata sui pazienti, per una misurazione più accurata.

Per il dataset USMLE-MM, il modello ha ottenuto eccellenti risultati, con percentuali di successo che variano dall'89,5% al 100% a seconda della fase del test.

Complessivamente, Med-Gemini ha mostrato di superare GPT-4V con un margine medio del 44,5% nei sette benchmark considerati. Per alcuni test come USMLE-MM, PAD-UFES-20 e Slake-VQA, sono stati anche confermati i risultati usando le stesse tecniche di GPT-4V, dimostrando la consistenza e l'affidabilità del modello Med-Gemini.

Esplorazione delle capacità di dialogo multimodale di Med-Gemini

Per dimostrare come Med-Gemini possa essere utile nella pratica medica quotidiana, sono stati creati alcuni esempi ipotetici che mostrano il modello in azione in scenari di dialogo medico.

Primo esempio: Immaginiamo un utente che chieda a Med-Gemini-M 1.5 consiglio su alcune protuberanze pruriginose sulle gambe e braccia. Il modello suggerisce all'utente di inviare una foto delle protuberanze. Una volta ricevuta l'immagine, Med-Gemini-M 1.5 fa domande specifiche per capire meglio il problema e riesce a diagnosticare un tipo comune di eruzione cutanea. Inoltre, offre consigli sui possibili passi successivi e sulle opzioni di trattamento.

Secondo esempio: In un altro scenario, Med-Gemini-M 1.5 assiste un medico di medicina generale nell'analisi di una radiografia del torace. Il modello aiuta a identificare una malattia comune della colonna vertebrale e discute le possibili cause del mal di schiena cronico del paziente. Suggerisce esami di follow-up per determinare la causa precisa del dolore e prepara un referto in linguaggio semplice, per aiutare il medico a comunicare meglio con il paziente. Tuttavia, le risposte del modello possono variare a seconda delle specifiche richieste; ad esempio, potrebbe non notare piccoli cambiamenti degenerativi se viene indirizzato a concentrarsi su altre caratteristiche.

Questi esempi illustrano il potenziale di Med-Gemini-M 1.5 nel facilitare la comunicazione e il supporto decisionale in contesti medici che integrano informazioni visive e testuali. Tuttavia, per implementare pienamente queste capacità nel mondo reale, sarebbero necessari ulteriori sviluppi e una valida conferma per garantire l'efficacia e l'affidabilità del sistema.

Come Med-Gemini gestisce le informazioni complesse ed estese in sanità

Med-Gemini-M 1.5 è stato messo alla prova per valutare la sua capacità di gestire informazioni molto dettagliate e complesse, sia nei record sanitari elettronici (EHR) sia attraverso video medici. Questo modello ha dimostrato di essere particolarmente efficace nell'identificare condizioni mediche rare e complesse all'interno di documentazioni EHR molto lunghe, soprattutto in situazioni descritte come "trovare l'ago nel pagliaio".

In aggiunta, Med-Gemini-M 1.5 ha mostrato ottime prestazioni anche nell'analisi di video medici, comprendendo compiti che richiedevano la gestione di video con e senza sottotitoli. Questo ha evidenziato come l'aggiunta di sottotitoli possa migliorare notevolmente la capacità del modello di comprendere i contenuti video. Nonostante alcune difficoltà dovute alla non disponibilità di alcuni video necessari per il test MedVidQA, Med-Gemini-M 1.5 ha superato i modelli precedenti, dimostrando come l'integrazione di diversi formati di dati, quali video, testo e audio, possa essere ottimizzata per una migliore comprensione dei contenuti.

È stato tentato un confronto con GPT-4, ma si sono riscontrate limitazioni legate alla lunghezza del testo che GPT-4 può elaborare, una limitazione non presente in Med-Gemini-M 1.5. Inoltre, nella specifica analisi di video di colecistectomia laparoscopica, Med-Gemini-M 1.5 ha superato il modello GPT-4V del 21%, anche se un modello più semplice basato su tecnologia ResNet3D ha mostrato prestazioni superiori, suggerendo aree di miglioramento possibile per Med-Gemini-M 1.5.

Questi risultati indicano che esiste un ampio margine per ulteriori ricerche su come affinare l'uso di dati multimodali e migliorare le strategie di istruzione per i modelli di intelligenza artificiale, in modo da potenziarne l'efficacia specialmente in contesti medici complessi.

Applicazioni delle capacità di elaborazione di contesti complessi in biomedicina

Med-Gemini-M 1.5 ha mostrato notevoli potenzialità nella gestione di contesti complessi in diversi ambiti della biomedicina. Oltre ai risultati numerici, il modello è stato valutato per il suo impatto nell'educazione medica, nell'assistenza ai clinici nell'uso dei sistemi di registrazioni sanitarie elettroniche (EHR) e nella revisione e sintesi della letteratura biomedica.

Un'area particolarmente promettente è l'uso di Med-Gemini-M 1.5 nei video procedurali in ambito clinico e formativo. Il modello ha dimostrato di poter identificare azioni chirurgiche specifiche da video, come dimostrato nell'analisi di una colecistectomia laparoscopica. Questa capacità può innovare la formazione chirurgica, consentendo valutazioni automatizzate, ottimizzando l'efficienza nelle sale operatorie analizzando i flussi di lavoro e guidando potenzialmente i chirurghi in tempo reale durante interventi complessi per migliorare la precisione e i risultati per i pazienti.

Ad esempio, Med-Gemini-M 1.5 non solo riconosce che un video mostra una colecistectomia laparoscopica, ma identifica anche strutture chiave importanti per assicurare la sicurezza durante l'operazione. Se queste capacità di classificazione potessero essere eseguite su larga scala con alta precisione, ciò potrebbe migliorare significativamente la revisione delle procedure, per esempio in contesti di assicurazione della qualità, o persino ottimizzare le fasi operative per aumentare l'efficienza.

Le potenzialità di Med-Gemini-M 1.5 suggeriscono che, con ulteriori sviluppi, il modello potrebbe fornire supporto didattico, assistenza e guida automatizzata durante le procedure mediche, migliorando così la formazione medica e la sicurezza dei pazienti. Tuttavia, per realizzare questi obiettivi più ambiziosi, saranno necessari studi e sviluppi ulteriori per valutare e affinare le sue capacità in contesti ancora più complessi e sfumati.

Interazione clinica con i registri sanitari elettronici

Med-Gemini-M 1.5 ha dimostrato di essere particolarmente abile nell'analizzare registrazioni mediche estese e nel sintetizzarle in riassunti chiari e facili da comprendere. Questa capacità permette ai medici e ai pazienti di avviare conversazioni basate su questi riassunti, facilitando la richiesta di informazioni più dettagliate su specifiche condizioni mediche o risultati di esami, come la polmonite o i risultati di una radiografia del torace. L'utilizzo di un linguaggio naturale nelle richieste e l'accesso facilitato ai dati medici attraverso un'interfaccia conversazionale possono notevolmente ridurre il carico di lavoro dei clinici e migliorare la comprensione delle informazioni, beneficiando così sia i professionisti che i pazienti. Per portare questa funzionalità nella pratica quotidiana, sono tuttavia necessari ulteriori studi e valutazioni.

In un altro esempio di applicazione, Med-Gemini-M 1.5 ha gestito efficacemente l'analisi di numerosi articoli di ricerca riguardanti il gene FTO e la sua relazione con l'obesità. Il modello ha esaminato e sintetizzato il contenuto di 12 articoli scientifici, presentando un riassunto conciso che spiega come variazioni genetiche in una specifica area del gene FTO possano influenzare il rischio di obesità. Queste variazioni alterano l'attività di alcuni geni coinvolti nell'accumulo di grasso. Questo esempio mostra la capacità del modello di svolgere complesse analisi genetiche che potrebbero avere implicazioni importanti per la ricerca biomedica e la comprensione di malattie come l'obesità.

Performance su MedQA

Med-Gemini-L 1.0 ha raggiunto risultati notevoli nel MedQA (USMLE), un importante test per valutare la conoscenza e il ragionamento medico. Questo successo è dovuto all'uso di tecniche avanzate di apprendimento automatico che affinano e integrano la ricerca nel processo di apprendimento. Inoltre, una revisione accurata del test MedQA effettuata da medici in servizio ha offerto spunti preziosi, rivelando che circa il 4% delle domande mancava di informazioni necessarie e un ulteriore 3% aveva potenziali errori nelle risposte fornite.

Tuttavia, nonostante l'efficacia di MedQA come strumento di valutazione, è emerso che stabilire una verità oggettiva in medicina può essere difficile a causa delle diverse interpretazioni e delle incertezze tipiche di questo campo, oltre ai continui aggiornamenti delle conoscenze mediche. Queste scoperte indicano che migliorare i risultati nei test come il MedQA non si traduce necessariamente in un avanzamento diretto delle capacità pratiche dei modelli di intelligenza artificiale in medicina. Per questo, è fondamentale condurre test più approfonditi che riflettano meglio la realtà dei contesti clinici.

È importante notare che molti test di valutazione hanno limitazioni dovute alla qualità e alla dimensione dei dati utilizzati. Per esempio, un nuovo approccio di addestramento per Med-Gemini-M 1.5 utilizzando un diverso insieme di dati dermatologici ha portato a una diminuzione del 7,1% nelle prestazioni del modello. Questo sottolinea l'importanza di considerare attentamente la qualità e la dimensione dei dati quando si valutano le prestazioni di tali modelli.

Integrazione della ricerca web

L'integrazione di Med-Gemini con la ricerca web offre ottime prospettive per migliorare la precisione e l'affidabilità delle risposte fornite a domande mediche tramite i Large Language Models (LLM). Questo studio si è concentrato sull'addestramento di Med-Gemini-L 1.0 per formulare query di ricerca web in situazioni di incertezza e per utilizzare i risultati della ricerca per arricchire la qualità delle risposte. I risultati ottenuti nei test MedQA, NEJM CPC e GeneTuring sono stati promettenti, ma è chiaro che sono necessarie ulteriori ricerche. Ad esempio, non è stata ancora valutata la possibilità di limitare i risultati della ricerca esclusivamente a fonti mediche autorevoli, né sono state applicate tecniche avanzate di recupero di informazioni multimodali o analizzate in dettaglio la precisione e la rilevanza dei risultati della ricerca e la qualità delle citazioni utilizzate. Rimane aperta anche la questione se LLM di dimensioni minori possano essere efficacemente addestrati a utilizzare la ricerca web. Questi aspetti saranno esplorati in futuro per avanzare ulteriormente in questo ambito di ricerca.

Potenzialità delle capacità conversazionali multimodali di Med-Gemini-M 1.5

Le capacità di dialogo multimodale di Med-Gemini-M 1.5 appaiono molto promettenti, specialmente perché sono state sviluppate senza un addestramento specifico per gestire dialoghi medici. Queste abilità permettono interazioni fluide e naturali non solo tra persone e clinici, ma anche con sistemi di intelligenza artificiale. Come dimostrato in alcuni esempi pratici, Med-Gemini-M 1.5 riesce a condurre conversazioni cliniche estese, a richiedere ulteriori dettagli come immagini quando necessario, a spiegare chiaramente il proprio processo decisionale e a fornire informazioni utili per le decisioni cliniche, lasciando però la decisione finale ai professionisti umani.

Questa capacità di dialogo apre numerose possibilità per applicazioni pratiche, come il supporto a clinici e pazienti, ma comporta anche alcuni rischi significativi. Nonostante si evidenzi il grande potenziale per ulteriori ricerche in questo ambito, le capacità di conversazione clinica di Med-Gemini-M 1.5 non sono state esaminate con la stessa profondità di studi precedenti focalizzati sull'intelligenza artificiale conversazionale diagnostica.

Le potenzialità di Med-Gemini-M 1.5 nell'elaborazione di dati estesi in medicina

Le caratteristiche più rilevanti di Med-Gemini risiedono nella sua abilità di elaborare contesti estesi, aprendo nuove frontiere nelle prestazioni e nelle potenzialità applicative in ambito medico, precedentemente irraggiungibili per i sistemi di intelligenza artificiale. Questo studio introduce un compito specifico focalizzato sull'analisi delle cartelle cliniche elettroniche molto dettagliate, mirando all'identificazione e alla verifica di condizioni, sintomi e procedure. Questo compito di ricerca, descritto come "trovare l'ago nel pagliaio", rappresenta una sfida reale per i clinici, e le prestazioni di Med-Gemini-M 1.5 dimostrano il suo potenziale nel ridurre notevolmente il carico cognitivo dei clinici, aiutandoli a estrarre e analizzare informazioni cruciali da vasti volumi di dati dei pazienti. Le capacità del modello nel rispondere a domande su video medici e nell'annotazione di dati indicano che queste competenze possono essere applicate anche a dati multimodali complessi. È significativo notare che le dimostrazioni di queste capacità di elaborare contesti estesi sono state effettuate utilizzando il metodo di few-shot learning, che permette al modello di apprendere da pochi esempi specifici, senza necessità di un addestramento esteso per il compito. Queste capacità aprono nuove opportunità per l'analisi dettagliata e l'annotazione di dati in settori quali la genomica sequenziale e multi-omica, tecniche di imaging avanzate come l'analisi patologica e l'imaging volumetrico, e l'elaborazione integrata con registrazioni sanitarie per scoprire nuove conoscenze e supportare i flussi di lavoro clinici.

La necessità di specializzazione e adattamento nei modelli medici AI

I modelli Gemini, che sono progettati per lavorare con diversi tipi di dati (multimodali), hanno già una solida base di conoscenze mediche grazie a un ampio addestramento iniziale. Questa preparazione li rende immediatamente efficaci, come dimostra il loro successo in test complessi come la NEJM Image Challenge, dove superano di gran lunga i modelli più generali che combinano visione e linguaggio, come il GPT-4V. Tuttavia, i dati medici, soprattutto quelli che combinano diversi tipi di informazioni (multimodali), sono unici e complessi e spesso non sono disponibili pubblicamente su internet, dove questi modelli vengono di solito addestrati.

Nonostante la versatilità dei modelli Gemini, è cruciale che vengano ulteriormente perfezionati e specializzati prima di essere utilizzati in ambito medico. I modelli Gemini hanno il vantaggio di richiedere meno dati specifici per la specializzazione rispetto alle generazioni precedenti di sistemi AI medici, rendendo più pratico ed efficiente il loro adattamento anche a nuove applicazioni mediche cruciali, come dimostrato nel contesto degli ECG.

Superare i benchmark per una valutazione completa dell'intelligenza artificiale medica

È fondamentale andare oltre i semplici test di valutazione standard per comprendere appieno l'efficacia dei modelli di intelligenza artificiale medica. Questo studio si distingue come uno dei più dettagliati nell'esame delle capacità pratiche dei Large Language Models (LLM) e dei Large Multimodal Models (LMM) in campo medico, esplorando nuove funzionalità e la loro applicabilità pratica. Questa ricerca mette in luce le ottime performance dei modelli in compiti come la sintesi di documentazione medica e la creazione di note mediche di rinvio.

Tuttavia, l'uso di AI diagnostica solleva importanti questioni regolamentari, cliniche ed etiche che devono essere affrontate per garantire un'implementazione sicura e fattibile. In generale, l'AI generativa trova impiego più sicuro in ambiti sanitari non diagnostici, dove gli errori sono meno rischiosi. In questi contesti, l'AI può migliorare notevolmente l'efficienza dei fornitori di cure, alleggerendo i carichi amministrativi e facilitando l'accesso e la sintesi di informazioni complesse necessarie nella pratica quotidiana.

Anche per questi impieghi non diagnostici, per assicurare un impatto reale, è essenziale realizzare valutazioni specifiche per il contesto di uso. Tali valutazioni vanno oltre i tradizionali test di benchmarking e richiedono una cautela nell'interpretazione dei risultati. Per comprendere le implicazioni a lungo termine e la capacità di applicazione delle potenzialità dimostrate, è cruciale aderire alle migliori pratiche di AI responsabile, valutando attentamente aspetti come l'equità, la giustizia e la sicurezza nell'ambiente designato, e considerando i vari fattori sociotecnici che influenzano l'efficacia specifica.

Nonostante in questo studio siano stati esaminati 14 test diversi e impegnativi, vi sono oltre 350 benchmark medici disponibili nella comunità scientifica, dimostrando l'ampio spettro di valutazione possibile.

Integrazione dei principi di AI Responsabile nel settore sanitario

La ricerca di Google si è focalizzata sulle potenzialità e i miglioramenti offerti dai modelli Gemini, aprendo nuove frontiere nell'utilizzo dell'intelligenza artificiale. Un aspetto fondamentale che emergerà nelle future ricerche è l'integrazione dei principi di un'intelligenza artificiale responsabile nel ciclo di sviluppo di questi modelli. Tra questi principi, si annoverano equità, privacy, trasparenza e responsabilità, per citarne alcuni. La protezione della privacy deve aderire strettamente alle leggi che salvaguardano le informazioni dei pazienti.

Un'altra questione chiave è l'equità, poiché esiste il rischio che i sistemi di AI in campo sanitario possano involontariamente perpetuare pregiudizi storici e disuguaglianze, portando a risultati che potrebbero danneggiare i gruppi sociali meno rappresentati. Queste disparità possono riguardare differenze di genere, razza, etnia, condizione economica, orientamento sessuale, età e altre caratteristiche personali sensibili.

L'esplorazione delle nuove capacità dei Large Language Models (LLM) e dei Large Multimodal Models (LMM) pone delle sfide legate ai pregiudizi presenti nei dati, nei modelli stessi e nelle applicazioni pratiche. Queste sfide si manifestano in varie forme, come nell'apprendimento da contesti estesi, nell'integrazione di ricerca online, nella dinamica dell'autoapprendimento e nell'uso di metodi avanzati di elaborazione dei dati. I pregiudizi possono emergere durante la formulazione delle ricerche online e influenzare le informazioni restituite, o possono essere presenti nelle fonti di dati esterne.

Nonostante queste sfide, l'evoluzione dei modelli AI offre anche l'opportunità di superare vecchie limitazioni e migliorare l'accessibilità. Ad esempio, la capacità di elaborare dati estesi permette di affrontare problemi complessi in tempo reale, senza la necessità di adattamenti specifici, consentendo agli utenti di utilizzare direttamente i dati nel contesto di una richiesta. Questo era impensabile senza competenze tecniche specialistiche in passato. Inoltre, l'integrazione della ricerca web può essere cruciale per incorporare rapidamente nuove informazioni mediche in un ambiente in costante cambiamento, come dimostrato dalla pandemia di COVID-19, che ha sottolineato la necessità di aggiornamenti rapidi nelle conoscenze mediche e il pericolo rappresentato dalla disinformazione.

Per assicurare che i risultati siano giusti e non distorti, è essenziale condurre studi approfonditi e sviluppare un modello di valutazione che consideri il contesto sociotecnico specifico di ogni applicazione clinica.

Conclusioni

Med-Gemini di Google DeepMind segna un passo importante nella collaborazione tra intelligenza artificiale e medicina. I suoi avanzamenti, con una precisione del 91,1% nel benchmark MedQA e competenze superiori in contesti medici multimodali, dimostrano il potenziale di questa tecnologia nel migliorare l'efficacia delle diagnosi e delle decisioni terapeutiche, fondamentali in un ambiente clinico. La capacità di Med-Gemini di integrare dati da varie fonti, compresi i registri sanitari elettronici e la ricerca web, potrebbe cambiare non solo la gestione dei casi complessi ma anche il flusso quotidiano di lavoro dei medici, offrendo supporto in tempo reale e riducendo il carico di lavoro.

Questo sviluppo offre alle aziende del settore sanitario l'opportunità di esplorare nuove applicazioni pratiche come la sintesi di note mediche e il supporto decisionale basato sui dati. Tuttavia, la sua implementazione in contesti critici richiederà ulteriori validazioni e adattamenti per garantire la sicurezza e l'efficacia delle cure. Per le startup e le aziende del settore, ciò significa considerare le partnership strategiche con sviluppatori di AI come Google DeepMind, per sfruttare queste tecnologie avanzate pur navigando nei complessi requisiti regolatori della medicina.

Inoltre, l'adozione di Med-Gemini potrebbe spingere le aziende sanitarie a rivedere le loro infrastrutture IT e i protocolli di formazione per i clinici, assicurandosi che possano sfruttare appieno le capacità dell'AI. La trasformazione digitale, guidata da queste innovazioni, potrebbe non solo migliorare la qualità dell'assistenza ma anche spianare la strada a un'assistenza sanitaria più personalizzata e accessibile, sfruttando il potenziale dell'intelligenza artificiale per trattare i pazienti con un grado di precisione e personalizzazione precedentemente irraggiungibile.