Mender: Preference Discerning e Generative Retrieval per raccomandazioni personalizzate

Andrea Viliotti
2 gen 2025
Tempo di lettura: 10 min

“PreferenceDiscerningwithLLM-Enhanced Generative Retrieval” di Fabian Paischer, Liu Yang e Linfeng Liu, coinvolge l’ELLIS Unit, LIT AI Lab, Institute for Machine Learning, JKU Linz, University of Wisconsin, Madison e Meta AI. La ricerca tratta la raccomandazione sequenziale in chiave generative retrieval sfruttando preferenze utente espresse in linguaggio naturale. Emergono opportunità di personalizzazione più incisiva, con la possibilità di guidare il sistema anche attraverso indicazioni negative (sentiment) o desideri specifici (steering). Per le aziende che operano nell'e-commerce, i dati suggeriscono che includere preferenze espresse in formato testuale nei sistemi di raccomandazione può migliorare le prestazioni, con un aumento stimato del 45% su metriche come il Recall@10. Questa metrica valuta la capacità di un sistema di identificare elementi rilevanti tra i primi 10 risultati mostrati, elemento cruciale per migliorare l’esperienza degli utenti. Tale approccio offre indicazioni pratiche per ottimizzare l'offerta di prodotti e servizi, consentendo un risparmio di risorse e favorendo un maggiore coinvolgimento del pubblico.

Mender: Preference Discerning e Generative Retrieval per raccomandazioni personalizzate

Preference Discerning: il nuovo standard per la Raccomandazione Sequenziale

Il paradigma del preference discerning si distingue come pratica innovativa per integrare esplicitamente le preferenze degli utenti nei modelli di generative retrieval, perfezionando la personalizzazione nelle raccomandazioni. Quest’ultimo non si limita a confrontare rappresentazioni statiche di item e utenti ma produce direttamente l’item successivo più adatto. L’idea di fondo è che la cronologia delle interazioni non basti a catturare la vera intenzione dell’utente, perché questi ultimi spesso esprimono desideri o limitazioni di vario tipo, soprattutto attraverso recensioni o note testuali che rimangono difficilmente codificabili in approcci tradizionali.

Nel lavoro di Paischer, Yang e Liu la nozione di generative retrieval assume una connotazione spiccatamente testuale. Il sistema ingloba infatti le preferenze, ad esempio: «Preferisco prodotti leggeri che non contengano determinate sostanze» o «Evito del tutto alcuni materiali scomodi». Questi desideri diventano variabili fondamentali per generare l’item successivo in una sequenza d’acquisti. Per giungere a un tale livello di personalizzazione, i ricercatori introducono un approccio in due fasi: preference approximation e preference conditioning. La prima individua le propensioni personali di ogni utente basandosi su dati come recensioni e descrizioni di item già acquistati; la seconda condiziona il modello generativo sulla base di queste preferenze, rendendo la raccomandazione decisamente flessibile e reattiva a istruzioni sia positive sia negative.

I riscontri numerici rivelano che i metodi standard faticano a interpretare dettagli particolari, come preferenze di sentiment o variazioni nel tempo dei gusti personali. Un sistema di preference discerning affronta la questione offrendo, tra gli altri, una valutazione “fine-grained steering” (capacità di modificare la raccomandazione con precisione) e una valutazione “coarse-grained steering” (adattamento più generico ma comunque attento a nuove preferenze). Per esempio, se un utente specifica di evitare materiali sintetici per calzature, il sistema non solo smette di proporre prodotti non graditi ma suggerisce alternative coerenti con la direzione preferita.

Dalla ricerca emerge anche come molti modelli esistenti non gestiscano bene la sentiment following, ossia comprendere se un utente esprime un rifiuto netto o un’attrazione forte per un certo brand o materiale. L’innovazione in termini di generative retrieval sta invece nell’inserire queste avversioni e inclinazioni dentro la generazione dell’output. Ciò risulta particolarmente utile per chi gestisce servizi di e-commerce e vuole limitare proposte indesiderate che rischierebbero di frustrare l’utente.

Un concetto centrale è la formula per la rappresentazione di item come semantic IDs, ovvero RQ(e,C,D) = (k1, ..., kN) in [K]^N, dove si definisce un processo di quantizzazione che converte gli embedding in rappresentazioni discrete. Questo passaggio permette di generare token interpretabili anche a fronte di milioni di prodotti diversi. I test su dataset come Amazon (Beauty, Toys and Games, Sports and Outdoors) e Steam mostrano come, aumentando le informazioni testuali, le raccomandazioni si facciano più mirate.

Per le aziende che gestiscono eCommerce, è particolarmente efficace unire l'integrazione delle preferenze degli utenti (history consolidation) con indicazioni di orientamento personalizzate. Questo consente all'azienda di individuare eventuali cambiamenti nei comportamenti degli utenti nel tempo e di adattare la strategia di presentazione dei prodotti in modo mirato. Questo approccio favorisce un incremento dei tassi di conversione e una riduzione del rischio di sovraccaricare l'utente con contenuti non pertinenti.

Benchmarking nel Preference Discerning: test e metodologie innovative

I ricercatori allestiscono un benchmark con cinque assi di valutazione: preference-based recommendation, fine-grained steering, coarse-grained steering, sentiment following e history consolidation. Ciascun asse mette in luce un diverso scenario d’uso e sottopone i modelli di raccomandazione a sfide particolari.

Nel caso di preference-based recommendation, il modello riceve una preferenza specifica generata in precedenza (per esempio: «Opta per prodotti privi di determinati allergeni») e deve indovinare quale sarà l’item desiderato. Per validare la robustezza delle soluzioni, vengono adottati set di training, validation e test che evitano sovrapposizioni tra preferenze già viste e preferenze nuove, in modo da misurare la capacità di generalizzazione a utenti inediti.

Sulla componente di fine-grained steering, si cerca di capire se il sistema riesce a cogliere preferenze molto ravvicinate all’item effettivamente acquistato. Immaginando un utente che ha sempre scelto scarpe da corsa ultraleggere, la preferenza potrebbe specificare di voler provare una versione “ancora più leggera ma con un certo tipo di ammortizzazione”. Il metodo deve sapersi orientare senza errori in direzioni affini, producendo item simili ma non identici. Al contrario, coarse-grained steering valuta la capacità di rispondere a preferenze che distanziano moltissimo la raccomandazione dal passato, come passare da “sneakers fitness” a “scarpe eleganti da cerimonia”. La ricerca rivela che i modelli tradizionali (per esempio TIGER o soluzioni con semplici vocab extension) falliscono spesso queste distanze, mentre un sistema ben condizionato sulle preferenze sa manovrare anche cambiamenti drastici.

L’aspetto di sentiment following spicca come funzione chiave. Se un utente ha espresso recensioni negative verso uno specifico brand, la preferenza generata può sottolineare di evitare quel marchio. Emerge tuttavia che molti modelli esistenti non sfruttano bene i dati negativi: la metrica m@k (mutuata dalla hit rate) indica se il sistema riesce a inserire l’item nel set di raccomandazioni quando la preferenza è positiva, ed escluderlo quando la preferenza è negativa. I risultati mostrano punteggi molto bassi (attorno allo 0.004 su alcuni dataset) per i metodi che non sono stati addestrati su preferenze esplicitamente negative, mentre la nuova strategia migliora nettamente quando si alimentano esempi di questo tipo.

L’ultima dimensione, la history consolidation, solleva la questione che molte preferenze non servono realmente a individuare l’item giusto in un dato momento e creano rumore. Fornire al modello un insieme di preferenze miste, che non tutte riguardano il prodotto finale, costituisce una prova di robustezza: il sistema deve filtrare i suggerimenti utili, ignorando preferenze irrilevanti. Secondo gli autori, l’abilità di gestire questi casi risulta cruciale per scenari reali, dove l’utente accumula preferenze e poi ne scarta alcune.

Le valutazioni adottano metriche note come Recall@5, Recall@10, NDCG@5, NDCG@10 e mostrano, in diversi esperimenti, come il paradigma del preference discerning migliori la qualità della raccomandazione in tutti e cinque gli assi. Il superamento dei modelli standard varia, talvolta arrivando fino a un +45% in termini di Recall@10.

Mender: il modello generativo che ridefinisce il Preference Discerning e il Generative Retrieval

Mender, acronimo di Multimodal Preference Discerner, rappresenta un’innovazione chiave nel panorama del generative retrieval. Questo modello avanzato sfrutta semantic IDs per generare raccomandazioni basate su preferenze utente espresse in linguaggio naturale, ridefinendo il paradigma del preference discerning. Il sistema gestisce gli elementi come sequenze di token semantici applicando il concetto di autoregressive modeling. Questo approccio consente di prevedere direttamente il prossimo elemento in una sequenza anziché confrontare gli elementi a coppie, migliorando così l’efficienza e l’accuratezza del processo.

Un aspetto chiave è l’impiego della formula RQ(e,C,D) = (k₁,...,kₙ) in [K]ⁿ, che permette di quantizzare gli embedding, cioè trasformare rappresentazioni numeriche complesse degli elementi in codici discreti. Questa trasformazione consente di collegare con maggiore precisione le preferenze testuali espresse dagli utenti all’universo degli elementi disponibili, migliorando il grado di personalizzazione delle raccomandazioni. Grazie a questa metodologia, Mender garantisce un abbinamento sofisticato e ottimale tra le preferenze degli utenti e gli elementi suggeriti, offrendo un sistema più efficace e user-friendly.

La particolarità di Mender risiede nella sua struttura, composta da un encoder linguistico pre-addestrato e da un decoder che genera token semantici corrispondenti agli elementi raccomandati. Il decoder utilizza meccanismi di cross-attention con l’encoder, un processo che consente di trasformare le istruzioni degli utenti e la cronologia d’acquisto in una previsione autoregressiva, ossia in una sequenza predittiva basata sugli input forniti.

Sono state sviluppate due versioni del modello: MenderEmb e MenderTok. MenderEmb codifica separatamente le preferenze degli utenti e gli elementi raccomandati attraverso embedding, cioè rappresentazioni numeriche specifiche per ogni componente. Al contrario, MenderTok unifica cronologia e preferenze in una sola sequenza di token testuali, permettendo al modello di trattare l’intero insieme di dati come un unico flusso informativo. Questa doppia configurazione offre flessibilità nella gestione e nell'ottimizzazione delle raccomandazioni in base alle esigenze specifiche del sistema.

Nei risultati sperimentali, MenderTok si distingue per prestazioni superiori rispetto ad altri approcci, grazie alla sua capacità di rappresentare tutte le informazioni in forma testuale. Ad esempio, su un dataset come Amazon Beauty, il valore di Recall@10 aumenta da 0.0697, ottenuto con alcuni modelli base, a circa 0.0937. Analogamente, sul dataset Sports and Outdoors, si registra un incremento da 0.0355 a 0.0427.

Questo miglioramento significativo è dovuto alla capacità del sistema di adattarsi a nuovi profili utente utilizzando vincoli espliciti espressi in linguaggio naturale, evitando così procedure complesse di ri-addestramento. Il modello genera un insieme di codici semantici valutando gli item in uno spazio latente, una rappresentazione astratta che cattura le caratteristiche principali degli elementi. Successivamente, questi codici vengono tradotti in ID discreti, consentendo al sistema di gestire efficacemente un catalogo di dimensioni molto ampie, mantenendo al contempo un elevato grado di personalizzazione e precisione nelle raccomandazioni.

Nel documento di ricerca si sottolinea che il successo di Mender dipende anche dalla qualità delle preferenze generate, cioè dalla loro aderenza reale al profilo utente. Gli autori, infatti, hanno condotto un sondaggio, rivelando che circa il 75% delle preferenze testuali corrisponde effettivamente agli orientamenti delle persone. Un sistema come Mender trae vantaggio dalla precisione di queste preferenze, riducendo proposte non pertinenti. Inoltre, la combinazione di segnali testuali e passati acquisti rende più semplice ampliare l’offerta a item correlati senza snaturare i gusti dell’utente.

Per le aziende interessate a implementare Mender, la sinergia tra embedding semantici e user input apre la strada a modelli in grado di integrarsi con i flussi di dati già esistenti, come recensioni, post sui social e feedback diretti. La prospettiva di codificare item e preferenze testuali in un unico encoder-decoder può incrementare la trasparenza e la spiegabilità delle raccomandazioni verso l’utente finale.

Mender e Generative Retrieval: impatti strategici per l’E-commerce

I test contemplati riguardano quattro dataset noti: tre subset di Amazon (Beauty, Toys and Games, Sports and Outdoors) e Steam. Le azioni totali vanno dalle 167.597 di Toys and Games alle 599.620 di Steam, con differenze anche nella distribuzione degli item. In modo coerente con l’idea di preference discerning, i ricercatori hanno generato preferenze da recensioni reali usando modelli di linguaggio di grandi dimensioni, filtrandole con meccanismi di post-processing per eliminare rumore o riferimenti ripetitivi.

Le performance di raccomandazione si valutano tramite diverse metriche.

MenderTok raggiunge, per alcune combinazioni di dataset e parametri, Recall@10 prossima allo 0.20 su Steam, mentre i modelli senza preferenze esplicite rimangono spesso sotto 0.19. Su Amazon, gli scarti tra le soluzioni sono ancor più marcati, con miglioramenti che, secondo i dati presentati, arrivano a toccare picchi di circa +45% rispetto a baseline come TIGER o LC-REC.

Un punto decisivo è l’abilità di cambiare la raccomandazione in base a preferenze negative. Nella valutazione definita sentiment following, se l’utente dichiara di evitare un certo brand, l’algoritmo deve eliminare l’item corrispondente dalle prime posizioni della lista. I risultati mostrano che, senza addestramento mirato su preferenze negative, molte soluzioni mantengono quell’item nelle raccomandazioni, irritando l’utente. Con l’approccio preference discerning, invece, la metrica di hit rate combinata migliora, indicando una maggiore capacità di distinguere ciò che piace da ciò che infastidisce.

Sono stati analizzati pure i casi di history consolidation, dove un utente accumula preferenze multiple e ne rivede alcune. Il sistema deve selezionare quali preferenze sono rilevanti e ignorare informazioni non più centrali. Gli autori evidenziano come modelli generativi standard, se privi di un’adeguata fase di conditioning testuale, fatichino a filtrare preferenze irrilevanti. Mender, viceversa, mostra un trade-off equilibrato tra affidabilità e adattabilità: anche quando compaiono preferenze disallineate con l’item finale, mantiene una prestazione competitiva.

Per le imprese, questi test di multi-scenario suggeriscono che la dimensione della personalizzazione ha un peso crescente sulle conversioni. Avere un unico sistema che sappia passare da raccomandazioni coerenti col passato a raccomandazioni in rottura controllata può aiutare a sperimentare nuovi cluster di prodotto, massimizzando il gradimento.

Preference Discerning e Generative Retrieval: applicazioni e futuro

L’orientamento esplicito sulle preferenze testuali proietta questo filone di ricerca in aree molto varie. Nell’e-commerce, l’uso di preferenze negative consente di proporre articoli che evitino ciò che l’utente non vuole, mentre l’inserimento di preferenze positive raffina la scelta su modelli, caratteristiche tecniche o design. I manager aziendali possono trasformare questi sistemi in strumenti di retargeting o di cross-selling più mirato, riducendo sprechi di tempo e di budget pubblicitario.

Sul piano tecnico, la combinazione tra embedding e preferenze naturali comporta un aumento di complessità gestibile grazie a large language models aperti. I ricercatori promettono di rilasciare il codice e i benchmark per favorire la riproducibilità e l’estendibilità a nuovi dataset. Si potrà così confrontare Mender con altri approcci che emergono rapidamente, assicurando un perfezionamento costante della tecnologia.

È importante sottolineare che analisi condotte su metriche come Recall@5, Recall@10 e NDCG@10 rappresentano un passaggio critico per individuare la capacità di rispettare preferenze specifiche. In settori come il turismo, l’assistenza sanitaria o le piattaforme di streaming, la necessità di saper interpretare rapidamente gusti e avversioni dell’utente risulta vitale. Adottare soluzioni in grado di recepire comandi in linguaggio naturale, come «Cerca prodotti sostenibili» o «Evita contenuti violenti», può fare la differenza sul tasso di fidelizzazione.

Grazie a preference discerning, l’utente diventa co-protagonista del processo di generazione, esprimendo istruzioni dirette su ciò che desidera. Un manager aziendale, dal canto suo, può definire linee guida di business intelligence, suggerendo al sistema quali preferenze aziendali favorire, per esempio prodotti a margine più elevato o integrati in campagne promozionali. La tecnologia generativa impiegata da Mender si dimostra sufficientemente flessibile da assorbire prompt esterni, un aspetto strategico quando le preferenze non emergono solo dai dati passati, ma anche da contesti online volatili o da input testuali in real time.

Conclusioni

Le informazioni provenienti dallo studio mostrano come la capacità di condizionare esplicitamente i modelli di raccomandazione con preferenze utente incida in modo concreto sulle prestazioni di generazione e sulle possibilità di personalizzare l’offerta. A differenza di soluzioni affini, Mender e il relativo benchmark introducono una gestione diretta delle istruzioni testuali, allineandosi con la tendenza emergente di integrare con efficacia i large language models. Le possibili conseguenze per il mondo imprenditoriale sono una maggiore modulazione della proposta, la riduzione di raccomandazioni errate e la potenzialità di esplorare mercati verticali con regole di personalizzazione più dettagliate.

Se si osservano altre tecnologie simili, alcune soluzioni di generative retrieval iniziano a sperimentare meccanismi linguistici, ma raramente raggiungono una separazione così netta tra generazione di preferenze e condizionamento effettivo. Da questa prospettiva, appare strategica la scelta di generare preferenze anche quando non esiste un esplicito storico collegato, favorendo l’adattabilità a nuovi utenti. Nel complesso, la ricerca apre lo spazio a una personalizzazione ancora più fine, in cui preferenze positive e negative, espresse liberamente in linguaggio naturale, guidano i sistemi in modo più consapevole. L’invito rivolto ai dirigenti aziendali è considerare l’adozione di questi metodi non semplicemente come un ulteriore progresso tecnico, ma come un cambiamento strategico verso un sistema altamente reattivo e orientato all’ascolto, in cui la voce dell’utente assume un ruolo centrale nel processo di raccomandazione. Questo approccio consente di integrare direttamente le preferenze espresse dagli utenti, trasformandole in uno strumento fondamentale per migliorare l’esperienza e la personalizzazione dei servizi offerti.

Podcast: https://creators.spotify.com/pod/show/andrea-viliotti/episodes/Mender-Preference-Discerning-e-Generative-Retrieval-per-raccomandazioni-personalizzate-e2svr5e

Fonte: https://arxiv.org/abs/2412.08604