Google Titans Memoria Neurale: come gestire contesti sequenziali estesi in modo efficiente

Andrea Viliotti
16 gen
Tempo di lettura: 11 min

La ricerca “Titans: Learning to Memorize at Test Time” di Ali Behrouz, Peilin Zhong e Vahab Mirrokni del team Google Research presenta Google Titans Memoria Neurale, un metodo innovativo per gestire sequenze di dati molto lunghe con un modulo capace di memorizzare durante l’uso. Il tema riguarda una soluzione per estendere l’attenzione a contesti superiori a 2 milioni di token, con costi computazionali ridotti grazie a un approccio ibrido fra meccanismi ricorrenti e attenzione selettiva. Gli imprenditori e i dirigenti possono trarre vantaggio da un sistema in grado di richiamare informazioni “ago nel pagliaio” su contesti sterminati, mentre i tecnici trovano uno schema di calcolo parallelizzabile che risponde alle esigenze di analisi e previsione su grandi volumi di dati.

Google Titans memoria neurale: fondamenti e gestione di contesti complessi

La ricerca pone l’attenzione sui metodi di compressione delle informazioni quando si gestiscono sequenze estese, esplorando l’uso di memorie associative per richiamare in modo efficiente parti rilevanti di input molto lunghi. Tradizionalmente, l’architettura Transformer si basa su attenzione (attention) che calcola, per ogni posizione i, la dipendenza rispetto a tutte le altre posizioni con un costo computazionale quadratico in funzione della lunghezza N. In formula ASCII semplificata, l’output y_i dell’attenzione risulta:

y_i = ( sum_{j=1 to i} [ exp(Q_i^T K_j / sqrt(d)) * V_j ] ) / ( sum_{l=1 to i} [ exp(Q_i^T K_l / sqrt(d)) ] )

dove Q,K,V rappresentano matrici di proiezione (query, key, value). Questo tipo di calcolo, pur risultando preciso nel rappresentare le relazioni di dipendenza tra i dati, diventa estremamente oneroso dal punto di vista computazionale quando il valore di N, ovvero il numero di token, cresce fino a raggiungere milioni.

Per affrontare questa complessità, alcuni studi propongono versioni semplificate basate su metodi lineari. Questi metodi sostituiscono la funzione softmax, utilizzata per calcolare l'attenzione, con funzioni kernel, ossia strumenti matematici capaci di approssimare lo stesso meccanismo in modo più efficiente, riducendo il costo computazionale a una dipendenza potenzialmente lineare rispetto alla lunghezza dei dati in input. Nonostante ciò, comprimere un testo di lunghezza arbitraria in una rappresentazione fissa può portare alla perdita di informazioni rilevanti, specialmente se il processo di compressione è eccessivamente rigido e non riesce a preservare dettagli fondamentali per l'interpretazione.

Nella ricerca è spiegato che l’attenzione può essere intesa come una memoria a breve termine, concentrata su una finestra ristretta di token. Un’architettura realmente adatta ai contesti lunghissimi richiede invece di memorizzare informazioni precedenti in modo più persistente. I tradizionali modelli ricorrenti (RNN, LSTM) mantengono uno stato vettoriale, ma faticano quando la sequenza è enorme, poiché lo stato tende a saturare e a perdere informazioni essenziali. Gli autori del lavoro hanno quindi proposto un modulo di memoria neurale capace di registrare informazioni man mano che i token arrivano e di imparare a dimenticare quando occorre liberare spazio di memoria.

Se si considerano compiti come il language modeling su flussi testuali continui o l’analisi di log industriali, la capacità di ricordare eventi cruciali è indispensabile. Nell’elaborazione di sequenze genomiche o di serie temporali complesse, un sistema capace di apprendere come e quando aggiornare la memoria risulta strategico: un approccio eccessivamente rigido può vanificare la rilevazione di pattern rari ma fondamentali. Gli autori suggeriscono che l’essenza della memorizzazione di lunga durata in rete neurale consiste nella possibilità di gestire token distanti nel tempo con un compromesso sostenibile fra accuratezza e risorse computazionali. Per le imprese, tutto ciò può significare migliore estrazione di conoscenza, previsioni più accurate e riduzione di costi hardware derivati dal tentare di caricare l’intera cronologia in un unico blocco di attenzione.

Google Titans memoria neurale: modulo aggiornabile durante l'uso

Nel contributo degli autori, la memoria neurale agisce come un meta-modello che si aggiorna durante l’uso (test time). È un passaggio importante: invece di bloccare completamente i pesi dopo l’addestramento, la memoria mantiene parametri che si modulano in funzione di dati considerati sorprendenti. La sorpresa è stimata tramite gradienti calcolati rispetto alla perdita del modulo di memoria, una perdita che misura la distanza fra chiave e valore associati a ogni token.

In termini matematici ASCII semplificati, se si indica con k_t la chiave generata dal token x_t e v_t il suo valore, si definisce:

L(M_{t-1}; x_t) = || M_{t-1}(k_t) - v_t ||^2

dove M_{t-1} rappresenta lo stato della memoria alla posizione precedente. L’aggiornamento del modulo M_t avviene mediante discesa del gradiente integrata da un meccanismo di momento (momentum) per tenere traccia di eventi passati, e da un tasso di decadimento che consente di dimenticare gradualmente ciò che non serve più:

M_t = (1 - alpha_t) * M_{t-1} + S_t

S_t = eta_t S_{t-1} - theta_t grad( L( M_{t-1}; x_t ) )

Da questa prospettiva, la parte di rete neurale dedicata a memorizzare è “profonda”: non è soltanto un vettore fisso o una matrice di piccole dimensioni, bensì un modello multilayer che ha potenzialmente più strati. In questo modo, la memoria non si limita a trattare la dipendenza lineare fra chiave e valore, ma può comporre trasformazioni non lineari più ricche, migliorando l’efficacia quando la lunghezza della sequenza diventa ingente.

Oltre alla capacità di apprendere in modo continuo, vi è poi un elemento di persistenza: un insieme di parametri fissi che immagazzinano la conoscenza a priori sulla natura del compito. Mentre la memoria neurale contextual può variare dinamicamente con i dati, la memoria persistente si comporta come un blocco invariato che fornisce un background di nozioni consolidate. Nella ricerca si evidenzia che questo assetto trae ispirazione dal cervello umano, che integra più tipi di memoria (breve termine, lungo termine e conoscenza stabile).

Da un punto di vista aziendale, la possibilità di avere un sistema che aggiorna parti dei propri parametri anche dopo l’addestramento è vantaggiosa. Un operatore industriale che analizza stream di sensori per prevedere guasti, ad esempio, vedrebbe la memoria neurale concentrarsi su picchi anomali, conservando a lungo solo le porzioni più utili alla diagnosi. Così si risparmiano calcoli e si riducono i rischi di saturazione, perché la memoria abbandona in maniera adattiva i dati poco rilevanti.

Google Titans memoria neurale: strategie di integrazione per contesti lunghi

La ricerca propone una famiglia di modelli denominata Titans, dove l’attenzione limitata a contesti locali (simile a una memoria a breve termine) è unita alla lunga durata della memoria neurale, che viene aggiornata in tempo reale. Sono illustrate tre varianti architetturali che mostrano diversi modi di combinare attenzione e memoria:

La prima, Memory as a Context (MAC), segmenta la sequenza in blocchi e usa l’attenzione a finestra ridotta su ogni blocco, concatenando i risultati della memoria neurale (che fornisce informazioni storiche profonde) e di quella persistente. Prima che il blocco venga elaborato, una query q_t ottenuta proiettando il blocco in ingresso S(t) serve a estrarre l’informazione storica necessaria:

h_t = M^*(q_t)

dove M^* indica la passata in inferenza, senza aggiornare i pesi. L’attenzione a finestra decide poi se e quanto usare tali elementi memorizzati, salvando a sua volta nuove tracce di dati importanti nella memoria neurale.

La seconda strategia, Memory as Gating (MAG), adopera un’attenzione che scorre (sliding window) come memoria a breve termine su tutta la sequenza, mentre la memoria neurale viene aggiornata parallelamente. A valle, un gating non lineare unisce i due percorsi in un output unico, equilibrando l’informazione appena estratta e la conoscenza sedimentata a lungo termine.

La terza variante, Memory as a Layer (MAL), colloca il nuovo modulo di memoria come uno strato in sequenza con modelli di attenzione. Questa scelta rispecchia approcci ibridi già esistenti, ma non sfrutta appieno la flessibilità di unire informazioni d’ampio raggio con un consulto dinamico della memoria.

Si sottolinea che in ognuna di queste soluzioni il flusso narrativo dei token è gestito con residual connection, gating e normalizzazioni. L’idea di base resta sempre creare un sistema capace di passare agevolmente da un contesto stretto a una memoria ampia, senza un rallentamento insostenibile. Per i dirigenti aziendali, si prospetta dunque la possibilità di avvalersi di architetture personalizzabili, nel senso che si può scegliere la variante Titans più congeniale ai requisiti di latenza o di accuratezza. Esempi reali possono essere la gestione di log transazionali di milioni di righe, la correlazione di dati storici su vendite in stagioni precedenti o la consultazione di archivi documentali per ricerche interne di scenario.

Google Titans memoria neurale: performance e applicazioni pratiche

Gli autori hanno valutato i modelli Titans in attività di language modeling, ragionamento su conoscenza comune, classificazione di sequenze genomiche e previsione di serie temporali. La sperimentazione mostra prestazioni superiori ai Transformer convenzionali e alle più recenti versioni ricorrenti “lineari.” In particolare, si fa riferimento a test “needle in haystack” su sequenze fino a 2 milioni di token, dove la capacità di individuare un’informazione dispersa in una grande massa di dati dimostra l’effettiva efficacia della memoria neurale.

Nella generazione del linguaggio, i costi quadratici associati al calcolo dell'attenzione tradizionale diventano insostenibili quando la finestra di contesto si estende troppo.

L'adozione delle strategie Titans offre un vantaggio significativo, poiché l'attenzione si concentra su segmenti più piccoli e gestibili, mentre una memoria ottimizzata registra, tramite aggiornamenti basati sul gradiente, le informazioni più rilevanti. In test condotti su dataset di grandi dimensioni contenenti testo, si osserva una riduzione marcata della metrica di perplexity (indicatore della capacità del modello di prevedere parole in un testo), mostrando risultati superiori rispetto a modelli ibridi basati su varianti ricorrenti, che si rivelano meno adattabili.

Nell'analisi di dati genomici, l'uso di una memoria neurale profonda permette di individuare correlazioni a lungo raggio lungo la sequenza di nucleotidi, migliorando l'accuratezza nella classificazione e raggiungendo prestazioni pari o superiori ai sistemi di riferimento più avanzati. Anche nel contesto delle serie temporali, come le registrazioni di temperature o i dati di traffico, un controllo dinamico dei momenti di sorpresa (eventi che si discostano significativamente dalle aspettative) evita l'accumulo superfluo di dati nella memoria. Questo approccio non solo riduce la ridondanza, ma aumenta anche la precisione delle previsioni su intervalli temporali più ampi, migliorando la robustezza complessiva del sistema.

Non si verificano duplicazioni di informazioni irrilevanti, poiché l'algoritmo di aggiornamento integra un meccanismo di decay (decadimento), che elimina periodicamente le componenti meno utili nella memoria. Questo processo garantisce un utilizzo più efficiente delle risorse computazionali e mantiene la memoria focalizzata sugli elementi più rilevanti.

I test sui tempi di addestramento e inferenza dimostrano che la costruzione di una memoria neurale non introduce un rallentamento significativo rispetto ai moderni modelli lineari. Questo è particolarmente vero quando si scelgono con attenzione la dimensione della finestra locale di attenzione e i blocchi di batch, ottimizzandoli per sfruttare le capacità di elaborazione parallela offerte da hardware specializzato, come GPU e TPU.

Per i tecnici, questo approccio rappresenta una soluzione concreta per gestire input di grandi dimensioni, offrendo un equilibrio prestazionale che consente di affrontare compiti complessi su larga scala senza sacrificare efficienza o accuratezza.

Google Titans memoria neurale: benefici aziendali e usi pratici

Osservando i risultati della ricerca, risulta chiaro che questo approccio offre diversi margini di applicazione in ambito industriale e gestionale. Un primo aspetto è la capacità di processare senza costi eccessivi milioni di record e di isolare informazioni salienti anche se molto remote. Esempi concreti sono le piattaforme di analisi customer journey, dove i dati di navigazione e interazione di un singolo utente si estendono su archi temporali estremamente lunghi. L’impresa che adotta Titans in un sistema di recommendation personalizzato potrebbe concentrare la memoria su eventi particolarmente inaspettati (come un acquisto atipico), costruendo suggerimenti più mirati e accurati.

Un secondo aspetto di rilievo riguarda la scalabilità. L’aggiornamento a test time del modulo di memoria non implica re-allenare l’intera rete. Ciò favorisce scenari in cui emergono costantemente nuovi pattern, come nel monitoraggio di processi produttivi: basta aggiungere segmenti di dati e lasciare che la memoria neurale li assorba.

Dal punto di vista strategico, manager e dirigenti ottengono uno strumento per il decision-making su grandi dataset. Se un’azienda vuole fare text mining di documenti legal-finanziari accumulati per anni, la combinazione di breve termine (l’attenzione su un periodo definito) e memoria di lungo termine permette di pescare clausole, citazioni o transazioni fondamentali senza dover rifare un addestramento massiccio ogni volta. Nel campo delle smart city, inoltre, i flussi di dati su traffico, consumi energetici e condizioni meteo possono essere integrati in modelli Titans per prevedere situazioni critiche, mentre i moduli di memoria si occupano di tracciare eventi rari che spesso sfuggono agli algoritmi tradizionali.

Un ulteriore vantaggio si trova nella parallelizzazione dei calcoli. Gli studi evidenziano come l'aggiornamento della memoria possa essere eseguito utilizzando operazioni di moltiplicazione di matrici (matmul) e somme cumulative, strumenti matematici altamente ottimizzati per l'elaborazione parallela. Con un approccio segmentato (chunk-wise), il flusso continuo di token viene suddiviso in blocchi, consentendo di massimizzare i calcoli paralleli e ottenere significativi miglioramenti in termini di prestazioni su hardware avanzato, come GPU o TPU.

Un aspetto rilevante è rappresentato dalla memoria persistente, che consiste in un insieme di parametri statici non modificabili durante l'uso. Questa memoria è ideale per codificare informazioni generali relative al contesto aziendale, come regole operative, politiche aziendali, standard di lavoro o vincoli normativi. Tale configurazione consente a ogni interazione successiva di partire da una base di conoscenze preesistente, arricchendola in modo dinamico e intelligente con i dati più recenti, migliorando così la coerenza e la rilevanza delle risposte fornite dal sistema.

Google Titans memoria neurale: vantaggi competitivi nel settore

La ricerca "Titans: Learning to Memorize at Test Time" si inserisce in un momento cruciale per il settore dell'intelligenza artificiale generativa, aprendo potenziali scenari evolutivi per i prodotti futuri di Google e, al contempo, delineando nuove sfide per i concorrenti come OpenAI e Anthropic. L'abilità di Titans di gestire contesti sequenziali estremamente ampi, superando la soglia dei 2 milioni di token, potrebbe tradursi in capacità di comprensione e generazione del linguaggio naturale più sofisticate e coerenti. Questo avanzamento potrebbe permettere ai modelli di AI generativa di Google di produrre testi più lunghi e articolati, mantenere il filo logico su conversazioni estese e persino elaborare narrazioni complesse con una memoria contestuale prima irraggiungibile. Inoltre, la natura adattiva della memoria neurale di Titans, che si aggiorna durante l'uso, introduce la possibilità di una personalizzazione dinamica dei modelli in base agli input ricevuti, aprendo le porte a esperienze utente più coinvolgenti e su misura.

Questo aspetto potrebbe rappresentare un fattore di differenziazione significativo per i prodotti di Google rispetto a quelli di OpenAI e Anthropic, che potrebbero trovarsi a dover rincorrere sul fronte della gestione di contesti di ampie dimensioni. La capacità di Titans di "ricordare" informazioni "ago nel pagliaio" su contesti estesi pone l'accento sulla necessità di sviluppare sistemi di AI non solo in grado di generare risposte immediate, ma anche di gestire la conoscenza accumulata e recuperare informazioni specifiche da una vasta mole di dati. È plausibile che la competizione si sposterà sempre più verso la creazione di modelli capaci di apprendere e adattarsi in tempo reale, non solo durante la fase di addestramento, per offrire un'interazione più fluida e naturale con l'utente. In questo scenario, la ricerca su Titans offre a Google un vantaggio potenziale, ma la rapidità di innovazione nel settore implica che la leadership potrebbe essere contesa con continui progressi su entrambi i fronti. L'effettivo impatto di Titans sui prodotti futuri di Google e il suo posizionamento rispetto alle offerte della concorrenza dipenderanno da come questa tecnologia verrà integrata e sviluppata ulteriormente, nonché dalla capacità dei concorrenti di rispondere con innovazioni altrettanto significative.

Conclusioni

La ricerca di Google mette in evidenza il potenziale di Titans Memoria Neurale per chi deve gestire flussi di dati estesi, combinando attenzione limitata e un modulo aggiornabile durante l’uso. Il paragone con modelli basati esclusivamente su ricorrenza o su attenzione a contesto fisso mostra che la nuova memoria neurale migliora la flessibilità: si evitano saturazioni, si abbattono costi superflui e si riesce a coprire con efficacia contesti oltre i 2 milioni di token. Se si confrontano tali risultati con le tecnologie di compressione lineare e i classici RNN, appare evidente come la combinazione di gating, momentum e dimenticanza adattiva possa costituire un passo avanti importante per le imprese. Tuttavia, altre soluzioni si orientano verso estensioni dei Transformer con kernel speciali o meccanismi di compressione, e alcune di esse possono rispondere a esigenze di throughput specifiche.

Rimane da esplorare in modo più approfondito l’integrazione di Titans con strategie di retrieval esterne, e l’evoluzione delle memorie profonde in funzione di architetture hardware emergenti. Per un manager, la riflessione concreta è che un simile approccio consente di sfruttare un’unica piattaforma sia per analisi localizzate sia per richiami informativi distanti, semplificando i processi decisionali e favorendo una rapida adattabilità ai mutamenti del mercato.

Podcast: https://spotifycreators-web.app.link/e/PUiizOL2cQb

Fonte: https://arxiv.org/abs/2501.00663