“Unifying Generative and Dense Retrieval for Sequential Recommendation” è il titolo della ricerca firmata da Liu Yang, Fabian Paischer e Kaveh Hassani, in collaborazione con l’Università del Wisconsin (Madison), l’ELLIS Unit del LIT AI Lab presso la JKU di Linz (Austria) e Meta AI. Lo studio esplora i sistemi di raccomandazione sequenziali, confrontando due approcci: il recupero denso, che punta sull’apprendimento di rappresentazioni complesse per ogni item, e il recupero generativo, basato su modelli in grado di predire direttamente l’indice dell’oggetto successivo. Alcuni elementi si rivelano di particolare interesse per le aziende, poiché coinvolgono aspetti di efficienza, gestione della memoria, integrazione di nuovi contenuti (cold-start) e prestazioni generali dei sistemi di raccomandazione.
Recupero denso e generativo: Come il modello LIGER rivoluziona le raccomandazioni sequenziali
Le raccomandazioni sequenziali rappresentano una delle aree più studiate nell’ambito dei sistemi di suggerimento. L’idea è di analizzare la cronologia di interazioni di un utente per predire l’articolo successivo, facendo emergere correlazioni tra la sequenza di click o acquisti passati e la probabilità di interessare l’utente con un nuovo contenuto. La ricerca di Liu Yang e colleghi indaga proprio l’impatto di due diverse metodologie: da un lato il recupero denso, dall’altro un approccio generativo che punta a produrre l’indice dell’item da raccomandare.
Il recupero denso, come descritto nella letteratura scientifica, si basa su tecniche avanzate di rappresentazione dei dati. Ogni articolo presente nel database viene trasformato in un embedding, ossia una rappresentazione numerica unica che sintetizza le caratteristiche fondamentali del suo contenuto. Il processo di raccomandazione si sviluppa calcolando il prodotto interno (una misura matematica di somiglianza) tra l'embedding associato all'utente o alla sequenza delle sue interazioni e l'insieme di tutte le rappresentazioni degli articoli disponibili. L'articolo che ottiene il punteggio di somiglianza più alto viene suggerito come opzione preferita.
Tuttavia, quando si lavora con dataset di grandi dimensioni, questo approccio richiede di confrontare l'utente con tutti gli articoli presenti, comportando un elevato dispendio in termini di memoria e potenza computazionale. Nonostante ciò, il recupero denso offre spesso prestazioni superiori rispetto ad approcci più semplici.
Il recupero generativo rappresenta un approccio alternativo al recupero denso. Invece di calcolare la similarità tra l'utente e tutti gli articoli disponibili, questa metodologia utilizza un modello di tipo Transformer, progettato per prevedere direttamente la prossima "etichetta semantica" associata all'articolo successivo. Con il termine "semantic ID" si intende un identificatore composto da più componenti che sintetizzano le principali caratteristiche dell'articolo, come titolo, marchio, categoria e prezzo. Ogni articolo viene quindi descritto attraverso una combinazione strutturata di questi attributi, spesso rappresentata come una tupla di codici.
Durante la fase di addestramento, il modello generativo apprende a predire la sequenza successiva di codici basandosi sullo storico delle interazioni dell'utente. Una volta completata questa fase, il sistema può individuare l'articolo successivo mediante un algoritmo di beam search. Questo è un metodo euristico di ricerca che esplora più percorsi possibili in modo simultaneo, mantenendo solo quelli più promettenti, limitati a un numero prefissato di opzioni ("beam width"). In altre parole, invece di esaminare tutte le possibili combinazioni, il sistema si concentra su un sottoinsieme di percorsi che sembrano più probabili, migliorando così l'efficienza senza sacrificare troppo la qualità della soluzione.
Un aspetto rilevante di questa strategia, nota come generative retrieval, è la sua capacità di scalare in modo più efficiente con l'aumentare del numero di articoli. Ciò è possibile grazie a una significativa riduzione dei costi di memoria: invece di conservare un embedding per ogni articolo, il sistema mantiene soltanto t codici, dove t rappresenta il numero di elementi distinti utilizzati per descrivere gli articoli. Per esempio, se nel database ci sono 10.000 articoli, ma solo 100 categorie e 50 marchi diversi, t sarà dato dalla somma degli elementi distinti necessari per rappresentarli (in questo caso, 100 categorie + 50 marchi = 150 codici), indipendentemente dal numero totale di articoli N.
Questa caratteristica rende il recupero generativo particolarmente vantaggioso quando si lavora con dataset di grandi dimensioni, garantendo una migliore scalabilità e una gestione più efficiente delle risorse computazionali.
L’analisi della ricerca evidenzia come i due approcci mostrino rispettivamente punti di forza e debolezze. Il recupero denso eccelle in termini di accuratezza, soprattutto nei test condotti su dataset con item noti o "in-set", ossia insiemi di dati in cui gli articoli da raccomandare durante la fase di valutazione erano già presenti nel set utilizzato per l'addestramento del modello. Questo scenario semplifica il compito del sistema, poiché si tratta di identificare elementi già "visti" e memorizzati. In questi contesti, il recupero denso ha ottenuto valori di Recall@10 (una metrica che misura l'efficacia nel recuperare elementi rilevanti entro le prime dieci posizioni) nell’ordine di 0,18-0,20 in alcuni esperimenti.
Di contro, il recupero denso paga il prezzo di costi di calcolo crescenti, soprattutto quando si deve raccomandare oggetti a milioni di utenti o lavorare con un numero molto elevato di articoli disponibili. Il recupero generativo, invece, si distingue per una struttura più leggera, che permette di gestire le informazioni sugli articoli in modo più compatto e consente inferenze rapide tramite l'algoritmo di beam search. Tuttavia, questo approccio mostra un divario di performance rispetto al recupero denso, specialmente in termini di accuratezza.
Questo gap appare evidente quando si analizzano i risultati numerici ottenuti sui medesimi dataset: nei test, la differenza nelle prestazioni, misurata attraverso il Recall@10, si attesta su uno scarto del 3-4%. Ciò significa che il recupero generativo, pur essendo più efficiente e scalabile, potrebbe non essere altrettanto efficace nel proporre articoli rilevanti, soprattutto in contesti in cui la precisione è cruciale.
Per le aziende, questo confronto diretto mette in luce la necessità di bilanciare precisione della raccomandazione con costi di infrastruttura e flessibilità di aggiornamento del catalogo. Investire in un sistema di recupero denso può essere ideale quando si hanno risorse di calcolo abbondanti e l’obiettivo è massimizzare la pertinenza degli articoli suggeriti. Un sistema generativo, invece, può consentire un più agile adattamento a contesti con item in continuo mutamento, soprattutto se è cruciale ridurre gli oneri di archiviazione.
Cold-start e recupero generativo: sfide e soluzioni con il modello LIGER
Il fenomeno del cold-start è un nodo da sempre centrale nei sistemi di raccomandazione. Quando un articolo fa il suo ingresso sul mercato o quando si acquisisce un nuovo partner commerciale che fornisce prodotti inediti, può mancare uno storico di interazioni, rendendo complesso l’aggancio tra utente e articolo. La ricerca analizza in che modo gli approcci densi e generativi reagiscono alla comparsa di item completamente nuovi.
I risultati mostrati in alcune tabelle di performance restituiscono uno scenario contrastante. Nel recupero denso, la presenza di rappresentazioni testuali per ogni articolo (per esempio descrizioni, brand e categorie) consente di generare un embedding anche per prodotti mai visti in precedenza. In questo modo, il modello conserva una capacità di raccomandazione non nulla per quei contenuti che non hanno ancora interazioni registrate. I ricercatori evidenziano che il Recall@10 in caso di cold-start rimane su valori positivi, sebbene inferiori ai corrispondenti item noti.
Il recupero generativo rivela invece limiti più marcati. Il problema discusso è l’overfitting verso item già esistenti nel training: quando il modello cerca di generare il codice semantico del prossimo articolo, tende a privilegiare quelli già incontrati. Durante l’inferenza, si ottiene una probabilità di generazione p⋆ per l’oggetto corretto decisamente inferiore rispetto alla soglia pK necessaria perché l’item appaia nelle scelte di beam search. In altre parole, se l’item è nuovo e non è presente nel training set, la sua probabilità di generazione risulta estremamente bassa, tanto da escluderlo dalle raccomandazioni finali. Dalle analisi risulta che su dataset come Amazon Toys o Amazon Sports, generative retrieval fatica a superare lo 0.0 in Recall@10 per gli item non presenti in addestramento.
Da un punto di vista imprenditoriale, quando ci si aspetta un ricambio frequente di prodotti o si ha l’esigenza di lanciare novità in modo continuo, diventa cruciale porre rimedio a questo deficit. Alcuni propongono di impostare una soglia che riservi una quota di K candidati al cold-start, forzando il modello a suggerire un certo numero di item inesplorati. Ciò però presuppone di conoscere in anticipo la proporzione degli articoli nuovi rispetto a quelli vecchi, un’informazione che non sempre è disponibile. È chiaro allora come, secondo gli autori della ricerca, il recupero generativo necessiti di strategie più raffinate per trattare i contenuti mai visti, lasciando un margine di miglioramento e di ricerca aperto.
Una conferma ulteriore emerge dai test su quattro insiemi di dati: Amazon Beauty, Amazon Sports, Amazon Toys e Steam. Sui primi tre, la differenza in cold-start è la più evidente, con generative retrieval che oscilla attorno allo zero in molte misurazioni. Su Steam, che è un insieme di giochi con attributi più ricchi come genere, specifiche, tag e prezzo, l’approccio generativo appare più competitivo ma non risolve completamente la lacuna del cold-start. Chi gestisce un portale di e-commerce, una piattaforma di servizi o un catalogo in costante evoluzione dovrebbe dunque valutare con attenzione l’adozione di un metodo generativo “puro”, tenendo presente che, almeno su dataset di piccola o media scala, il recupero denso rimane superiore nel trattare item non visti.
Modello ibrido LIGER: superamento delle lacune del recupero generativo
Per affrontare il problema del divario nelle prestazioni e risolvere le difficoltà legate al cold-start, la ricerca propone un modello ibrido chiamato LIGER (LeveragIng dense retrieval for GEnerative Retrieval), progettato per combinare i punti di forza di entrambi gli approcci.
L’architettura di LIGER è progettata per combinare le informazioni testuali degli articoli con i loro codici semantici e utilizza due distinti metodi di ottimizzazione. Il primo metodo si basa sul calcolo della similarità coseno tra l’output del Transformer e la rappresentazione testuale dell’elemento successivo. Questo approccio serve a misurare quanto le due rappresentazioni siano vicine in termini di significato. Il secondo metodo, invece, si focalizza sulla predizione diretta del codice semantico associato all’elemento futuro.
Il modello utilizza una funzione obiettivo composta da due componenti principali. La prima parte considera una funzione logaritmica che normalizza il valore di similarità coseno attraverso un parametro chiamato "fattore di temperatura" (τ). Questo parametro regola la distribuzione delle probabilità, rendendo più o meno marcata la differenza tra le varie opzioni. In pratica, il modello cerca di massimizzare la similarità tra l’output del Transformer e la rappresentazione testuale corretta, minimizzando al contempo la probabilità associata a rappresentazioni non corrette.
La seconda parte della funzione obiettivo si concentra sulla predizione del codice semantico. Il modello prevede ogni componente del codice semantico, utilizzando l’output del Transformer e le informazioni provenienti dagli elementi precedenti della sequenza.
In sintesi, la funzione combinata spinge il modello a integrare due capacità fondamentali:
Recupero denso: Massimizza la corrispondenza tra l’output del Transformer e l’elemento testuale corretto, favorendo un’accurata associazione semantica.
Predizione generativa: Si occupa di prevedere la sequenza di codici semantici, migliorando la capacità del modello di anticipare informazioni complesse basate su ciò che ha già analizzato.
Questa duplice strategia permette al modello LIGER di eccellere sia nell’identificazione accurata di elementi correlati sia nella generazione di predizioni utili e dettagliate. I ricercatori sottolineano che tale approccio consente di sfruttare congiuntamente i vantaggi di entrambi i metodi, ottimizzando le prestazioni su compiti che richiedono sia comprensione che generazione di contenuti.
Durante la fase di inferenza, il modello ibrido LIGER impiega un numero K di candidati ottenuti attraverso il recupero generativo, integrandoli con eventuali nuovi elementi e valutandoli successivamente mediante metodologie dense. I test evidenziano che, all'aumentare di K, LIGER riesce progressivamente a ridurre il divario rispetto al recupero completamente denso. Il cosiddetto "Normalized Performance Gap (NPG)" mostra una diminuzione costante della differenza: si parte da una performance vicina a quella del recupero generativo (con valori di K bassi) fino a raggiungere risultati più comparabili al recupero denso (con valori di K alti). Ad esempio, nei casi di studio relativi ad Amazon Beauty e Amazon Toys, è stato osservato che incrementando K da 20 a 80, i valori di Recall@10 per elementi "in-set" tendono a convergere ai risultati del recupero denso, consentendo al contempo di esplorare nuovi elementi.
Questa strategia trova notevoli riscontri nel mondo imprenditoriale. Abilitare un modello che sia in grado di gestire con efficienza la mole di contenuti (limitando lo sforzo computazionale) e allo stesso tempo proporre raccomandazioni efficaci, anche su item appena pubblicati, si traduce in un concreto valore di business. Ridurre i costi di stoccaggio delle informazioni d’item (grazie alle semantic ID) e mantenere un buon livello di accuratezza spinge le aziende a considerare con favore un’architettura ibrida, specialmente in scenari dove la varietà di prodotti cresce rapidamente.
Modello LIGER: test e prestazioni su quattro dataset Amazon
Il lavoro di confronto è stato svolto su quattro dataset emblematici: Amazon Beauty, Amazon Sports, Amazon Toys e Steam. Nel caso di Amazon Beauty si parla di 22.363 utenti, 12.101 articoli e 198.502 azioni, con 43 articoli totalmente nuovi in cold-start. Amazon Sports conta 35.598 utenti, 11.924 articoli e 296.337 azioni, con 56 item nuovi; Amazon Toys ne presenta 19.412, 11.924 articoli, 167.597 azioni e 81 item di cold-start. Steam, infine, con 47.761 utenti e 18.357 articoli, racchiude 599.620 azioni e 400 item nuovi.
Gli autori hanno testato una serie di metodi tradizionali, come SASRec, S3-Rec, FDSA e altre varianti basate su Transformers, tra cui UniSRec e RecFormer, affiancandole a TIGER (recupero generativo puro) e poi al modello LIGER. Si evidenzia come i metodi che si basano esclusivamente sull’ID dell’articolo risultino deboli nel caso di item inediti, perché mancano di informazioni su come posizionare quei contenuti mai visti. Questo spiega punteggi di Recall@10 pressoché pari a zero in scenario cold-start.
Nei test di in-set, i valori di NDCG@10 e Recall@10 raggiungono picchi elevati per i modelli densi e per alcuni modelli generativi potenziati con testo, ma il recupero generativo tende a rimanere indietro di qualche punto percentuale. In Amazon Beauty, per esempio, si registra un Recall@10 che per denso può superare lo 0.07 in determinate configurazioni, mentre la versione generativa si ferma più in basso. Nel caso di Amazon Toys, i valori di generative retrieval sfiorano 0.05782 in Recall@10, ben al di sotto di alcune soluzioni dense che arrivano oltre 0.07.
La situazione appare più complessa per i cold-start. Qui, i dati mostrano che i valori generativi scendono fino a 0.0 su più dataset, riflettendo l’impossibilità del modello di “indovinare” codici semantici che non ha mai incontrato in fase di addestramento. LIGER, invece, porta un miglioramento tangibile. Sulla categoria Toys, per esempio, nei test riportati si nota come LIGER possa arrivare anche a 0.13063 in Recall@10 per item in cold-start (quando K=20), mentre TIGER rimane a 0.0.
Un aspetto rilevante è la gestione della soglia K. L’aumento di K fa sì che aumentino le possibilità di includere l’articolo corretto nel set di generazione, ma ciò impatta i costi di inferenza. La ricerca mostra che con un K intorno a 40 o 60, su Amazon Sports e Amazon Toys, LIGER raggiunge un compromesso tra costi computazionali e accuratezza. Per un’azienda che gestisce grandi volumi di articoli e non vuole perdere opportunità su novità e prodotti a bassa frequenza, LIGER appare un compromesso interessante: in base alle risorse e agli obiettivi, si possono regolare i parametri per avvicinarsi il più possibile ai risultati del recupero denso, tenendo a bada al contempo la complessità computazionale.
Modello LIGER: opportunità strategiche per il futuro delle raccomandazioni
L’integrazione di un metodo ibrido come LIGER non è solo un esercizio di ingegneria algoritmica, ma tocca diversi aspetti dell’organizzazione e delle strategie di sviluppo del business. In primo luogo, esiste la questione della scalabilità. Quando la base di articoli raggiunge numeri ragguardevoli, l’idea di memorizzare un embedding unico per ciascun oggetto può diventare un problema in termini di costi di archiviazione e di aggiornamento. Al contrario, un sistema generativo riduce il numero di vettori da stoccare, poiché si concentrano quasi esclusivamente i codici semantici. Ciò si traduce in un risparmio tangibile, utile per aziende che offrono milioni di prodotti e subiscono un notevole turnover.
In secondo luogo, la questione della personalizzazione diventa più sottile. Il recupero denso fornisce una ricerca accurata per item già “rodati”, mentre l’approccio generativo permette di cogliere connessioni latenti tra item e utenti grazie al potere del Transformer di produrre codici semantici nuovi. LIGER, abbinando i due procedimenti, offre risultati incoraggianti: evita di rimanere intrappolato nei bias del generativo puro e insieme conserva quella flessibilità essenziale per non penalizzare i contenuti emergenti. Questo si riflette in un miglioramento diretto per i clienti, che potrebbero ricevere suggerimenti più pertinenti su prodotti inediti o di nicchia.
Sul piano dell’integrazione con sistemi aziendali, chi già possiede un’infrastruttura basata su modelli densi e desidera ridurre i costi può sfruttare LIGER gradualmente. Da un lato, si mantiene la rete di embedding esistente per la fase di ranking fine; dall’altro, si affianca un modulo generativo per la generazione di candidati. Il modello ibrido tende a coprire un ampio ventaglio di situazioni e diventa rilevante anche nei verticali come le piattaforme streaming o i marketplace di prodotti digitali.
La ricerca sottolinea infine alcune possibili estensioni future. L’impiego di Large Language Models (LLM) per il recupero generativo potrebbe cambiare ancora gli equilibri tra i due paradigmi, anche se per ora i test qui citati si concentrano su dataset piccoli e medi. Manca una prova definitiva sui volumi industriali, dove gli autori stessi ammettono che i parametri di tuning, la distribuzione dei dati e l’ottimizzazione dell’infrastruttura possono trasformare i risultati. È plausibile che ulteriori perfezionamenti degli algoritmi generativi permettano di raggiungere prestazioni prossime a quelle del recupero denso, se non superiori, specie qualora i flussi di item nuovi fossero molto intensi.
Conclusioni
Le informazioni fornite dalla ricerca suggeriscono che recupero denso e recupero generativo rappresentano due facce di uno stesso obiettivo: facilitare la migliore interazione tra utenti e articoli in base alla cronologia dei comportamenti. La differenza più evidente sta negli oneri di memorizzazione e di calcolo. Il recupero denso offre accuratezza ma richiede risorse notevoli, mentre il generativo si distingue per la memoria ridotta e la capacità di manipolare codici semantici. LIGER, fondendo il ranking denso e la componente generativa, appare come un’alternativa realistica che ridimensiona il divario prestazionale e consente di includere item in cold-start con buoni risultati di Recall@10.
Comparando i risultati con le tecnologie esistenti, emerge che l’adozione di grandi modelli pre-addestrati per il recupero denso, come BERT o T5, presenta potenzialità straordinarie, ma resta ancorata alla necessità di archiviare molteplici vettori. Al contempo, i metodi generativi di ultima generazione guadagnano terreno, specie se si utilizzano meccanismi di tokenizzazione più scalabili o se si integra il potere di modelli di linguaggio generali. LIGER si situa su una linea di convergenza strategica: è abbastanza leggero rispetto al denso puro, senza trascurare la precisione necessaria a mantenere alto l’engagement.
Per le imprese, i dati suggeriscono che la scelta di un sistema ibrido possa rappresentare un vantaggio concreto, soprattutto quando si gestisce un catalogo in continuo aggiornamento o si temono costi di storage troppo elevati. Non esiste un’unica soluzione preferibile in maniera assoluta, poiché il contesto di scala e le risorse a disposizione determinano gran parte dell’efficacia. Ciò che emerge è la spinta verso un futuro in cui denso e generativo possano coesistere, magari con ulteriori ottimizzazioni che migliorano la generazione di item inesplorati e riducono il tempo di risposta. L’equilibrio dinamico tra i due metodi, già mostrato da LIGER, potrebbe innescare nuove idee per chi costruisce soluzioni di raccomandazione sempre più flessibili e pronte a adattarsi alla costante evoluzione dei mercati.
Comments