MobileLLM: Ottimizzazione dei LLM di piccole dimensioni per l'uso su dispositivi mobili

Andrea Viliotti
8 nov 2024
Tempo di lettura: 9 min

L'evoluzione dei modelli linguistici di grandi dimensioni (LLMs) ha trasformato profondamente il modo in cui le persone comunicano, interagiscono con la tecnologia e utilizzano i dispositivi nelle loro attività quotidiane. Tuttavia, la maggior parte dei modelli avanzati, come GPT-4, è progettata per funzionare su infrastrutture cloud, con miliardi di parametri che necessitano di un'enorme capacità di elaborazione. Questo approccio comporta costi operativi elevati, alta latenza e un significativo impatto ambientale legato al consumo energetico. Per affrontare queste problematiche, il team di Meta ha sviluppato MobileLLM, un modello ottimizzato per funzionare direttamente su dispositivi mobili con risorse limitate.

MobileLLM rappresenta un passo significativo verso la democratizzazione dell'accesso ai modelli di intelligenza artificiale, progettato specificamente per l'esecuzione su dispositivi come smartphone e tablet. L'obiettivo principale è realizzare modelli con meno di un miliardo di parametri, mantenendo prestazioni comparabili a quelle dei modelli più grandi.

MobileLLM: Ottimizzazione dei LLM di piccole dimensioni per l'uso su dispositivi mobili

Il contesto e le sfide degli LLM su dispositivi mobili

I modelli linguistici avanzati, come ChatGPT o LLaMA-v2, sono progettati per essere eseguiti su infrastrutture cloud che utilizzano hardware molto più potente rispetto a quello disponibile su un dispositivo mobile. Ad esempio, GPT-4 può richiedere migliaia di GPU per il suo funzionamento ottimale, un carico impossibile da gestire su uno smartphone. Questa limitazione è dovuta principalmente alla capacità di memoria DRAM dei dispositivi mobili, che solitamente varia tra 6 e 12 GB.

Su dispositivi mobili, l'utilizzo della memoria DRAM deve essere gestito con attenzione: nessuna singola applicazione dovrebbe usare più del 10% della memoria disponibile, poiché questa è condivisa con il sistema operativo e altre applicazioni. Questo rende necessaria l'implementazione di modelli più piccoli per garantire un utilizzo continuativo senza compromettere le prestazioni del dispositivo o ridurre drasticamente la durata della batteria.

Un'altra delle principali sfide è la limitata larghezza di banda della memoria e la gestione della cache. Nei dispositivi mobili, la DRAM e la memoria SRAM (utilizzata per la cache), che varia tra 8 e 32 MB, limitano fortemente la capacità di eseguire modelli con miliardi di parametri senza opportune ottimizzazioni. Anche modelli ottimizzati, come LLaMA-v2 7B con pesi a 8 bit, superano le capacità tipiche di uno smartphone, rendendo essenziale lo sviluppo di soluzioni più compatte.

Il consumo energetico rappresenta un'altra sfida cruciale. I modelli LLM richiedono molta energia per effettuare inferenze. Un modello come LLaMA-v2, con 7 miliardi di parametri, può consumare fino a 0,7 Joule per token, esaurendo la batteria di uno smartphone in meno di due ore di utilizzo continuo. In confronto, MobileLLM con 350 milioni di parametri consuma solo 0,035 Joule per token, permettendo un uso molto più prolungato.

Un altro collo di bottiglia significativo è il trasferimento di memoria tra SRAM e DRAM. MobileLLM adotta una tecnica chiamata "immediate block-wise weight sharing", che consente di riutilizzare i pesi di un blocco più volte senza trasferirli ripetutamente tra SRAM e DRAM. Questo riduce il consumo energetico e migliora la velocità di esecuzione, rendendo il modello più adatto all'uso su dispositivi con risorse limitate.

L'ottimizzazione per l'esecuzione su dispositivi mobili implica anche la capacità di gestire attività multiple contemporaneamente senza compromettere le prestazioni. MobileLLM sfrutta architetture profonde e sottili che permettono di ottenere un'efficienza simile a quella di modelli più grandi, ma con un utilizzo significativamente inferiore delle risorse. Questa è una caratteristica essenziale per applicazioni in tempo reale, come assistenti vocali o realtà aumentata, dove le risposte devono essere rapide e non dipendere da infrastrutture cloud.

L'architettura di MobileLLM

Contrariamente alla convinzione comune secondo cui le prestazioni dei modelli dipendono principalmente dal numero di parametri e dalla quantità di dati di addestramento, MobileLLM dimostra che la profondità dell'architettura è altrettanto importante per i modelli di piccola scala. Utilizzando una struttura profonda e sottile, MobileLLM riesce a catturare concetti astratti in modo più efficace, migliorando le prestazioni. La famiglia di modelli MobileLLM comprende varianti con 125M e 350M di parametri, che hanno dimostrato notevoli miglioramenti rispetto ai modelli precedenti della stessa scala, come OPT-125M e BLOOM-350M.

Una caratteristica innovativa di MobileLLM è l'uso della condivisione immediata dei pesi a blocchi (block-wise weight sharing). Questa tecnica prevede la condivisione dei pesi tra blocchi adiacenti, senza aumentare le dimensioni del modello, riducendo così la latenza legata agli spostamenti di memoria. Ciò è particolarmente utile nei contesti in cui il trasferimento di memoria rappresenta un collo di bottiglia significativo per le prestazioni.

Per massimizzare l'efficienza dei parametri, MobileLLM adotta tecniche come l'attenzione per query raggruppate (grouped-query attention), che riduce la ridondanza e migliora l'efficienza del modello. Questa tecnica riduce il numero di teste key-value rispetto alle teste query, replicando i pesi chiave e valore in maniera ottimizzata. Il risultato è un aumento dell'accuratezza del modello senza un incremento significativo delle risorse richieste.

MobileLLM utilizza anche la condivisione delle embedding, riutilizzando i pesi del livello di embedding di input per il livello di output. Questo riduce il numero di parametri senza compromettere le prestazioni, e la perdita di accuratezza è facilmente recuperabile aumentando la profondità del modello. I risultati sperimentali mostrano che modelli più profondi, con un numero maggiore di strati, superano le prestazioni dei modelli più larghi ma meno profondi nei compiti di ragionamento e comprensione.

Un altro elemento chiave dell'architettura è la scelta della funzione di attivazione. MobileLLM utilizza la funzione di attivazione SwiGLU, che migliora significativamente le prestazioni rispetto alle funzioni tradizionali come ReLU. Sostituendo il classico feed-forward network con SwiGLU, MobileLLM ha migliorato le prestazioni sui compiti di ragionamento zero-shot, rendendola una scelta ideale per le architetture a piccola scala.

MobileLLM esplora la profondità come un elemento cruciale per l'ottimizzazione. I ricercatori di Meta hanno dimostrato che, per modelli di dimensioni ridotte, una maggiore profondità è più vantaggiosa rispetto a una maggiore larghezza. Questa scoperta è stata verificata con l'addestramento di 19 modelli con parametri compresi tra 125M e 350M. I risultati hanno mostrato che i modelli più profondi ottengono migliori prestazioni in compiti di ragionamento e comprensione rispetto a quelli più larghi ma con meno strati.

Risultati e applicazioni

MobileLLM non solo migliora l'efficienza energetica e riduce i costi di calcolo, ma eccelle anche in applicazioni come le attività di chat e le chiamate API. MobileLLM è stato addestrato per creare risposte per assistenti virtuali e per generare configurazioni API strutturate da richieste in linguaggio naturale. I benchmark dimostrano che MobileLLM-350M raggiunge una precisione comparabile al modello LLaMA-v2 7B, ma con un numero significativamente inferiore di parametri e maggiore adattabilità all'uso su dispositivi mobili.

Un aspetto interessante è la capacità di MobileLLM di competere nei compiti di conversazione. MobileLLM-350M ha ottenuto un tasso di vittoria del 48,2% rispetto al modello GPT-3 di riferimento, dimostrando la capacità di offrire prestazioni competitive anche rispetto a modelli molto più grandi. Questa capacità rende MobileLLM ideale per applicazioni che richiedono interazioni in tempo reale, come gli assistenti vocali, garantendo risposte rapide e precise senza dipendere dalla connessione costante al cloud.

I test hanno evidenziato un significativo miglioramento nelle capacità di risposta a domande di buon senso e comprensione del testo rispetto ai modelli precedenti di dimensioni simili. MobileLLM-LS, che utilizza la condivisione dei pesi a strati, ha migliorato l'accuratezza dello 0,7% rispetto al modello base, confermando l'efficacia delle tecniche di ottimizzazione. Questo è particolarmente rilevante per l'uso on-device, dove la riduzione della latenza e l'efficienza della memoria sono essenziali.

MobileLLM si è dimostrato efficace anche nelle chiamate API, una funzionalità comune nei dispositivi mobili, in particolare insieme a modelli audio-to-text per assistenti vocali. MobileLLM-350M ha prestazioni comparabili al modello LLaMA-v2 7B nelle chiamate API, ottenendo punteggi simili di "exact match" e mantenendo un consumo di risorse significativamente inferiore.

MobileLLM è compatibile con la quantizzazione post-addestramento (PTQ), un metodo che riduce ulteriormente la dimensione del modello senza comprometterne drasticamente le prestazioni. La quantizzazione con precisione W8A8 ha mostrato una riduzione di accuratezza inferiore allo 0,5%, rendendo MobileLLM pratico per applicazioni che richiedono modelli compatti.

Questa capacità di bilanciare precisione ed efficienza rende MobileLLM una soluzione promettente per scenari in cui la latenza è critica. Nei benchmark di chat, MobileLLM-LS-350M ha superato altri modelli della stessa categoria, dimostrando qualità nelle risposte e capacità di gestire conversazioni in modo fluido.

Implicazioni future

L'approccio di MobileLLM sottolinea l'importanza di progettare modelli di intelligenza artificiale che siano non solo accurati, ma anche efficienti e facilmente implementabili su dispositivi con risorse limitate. Le tecniche di ottimizzazione, come la condivisione dei pesi e l'attenzione per query raggruppate, sono strumenti potenti per migliorare l'efficienza senza compromettere le prestazioni.

In un mondo sempre più dipendente dall'intelligenza artificiale, la possibilità di eseguire modelli avanzati direttamente su dispositivi mobili apre nuove prospettive per l'uso decentralizzato dell'AI. Questo significa non solo una riduzione dei costi legati al cloud, ma anche una maggiore accessibilità per applicazioni personalizzate, garantendo privacy e riducendo la dipendenza da connessioni di rete.

Le implicazioni future di MobileLLM riguardano l'evoluzione dei dispositivi mobili verso una maggiore capacità di calcolo e intelligenza integrata. Con l'adozione di LLM ottimizzati, i dispositivi mobili potranno eseguire compiti complessi in autonomia, senza necessità di connessioni costanti a server cloud. Questo sviluppo potrebbe rivoluzionare le applicazioni mobili, abilitando funzionalità avanzate in ambito assistenza personale, automazione domestica, sanità e industria.

MobileLLM potrebbe inoltre essere integrato nelle tecnologie indossabili, nei dispositivi IoT e in altre soluzioni con risorse limitate, estendendo l'accessibilità dell'intelligenza artificiale. I dispositivi IoT, dotati di modelli compatti, potrebbero operare in modo più autonomo, adattarsi meglio agli ambienti circostanti e fornire servizi avanzati senza necessità di una connessione costante a Internet. Ad esempio, dispositivi per il monitoraggio della salute potrebbero analizzare i dati localmente, riducendo i rischi per la privacy e consentendo l'accesso immediato alle informazioni critiche.

La sostenibilità è un'altra area di grande interesse. La riduzione del consumo energetico dei modelli AI è fondamentale non solo per migliorare l'efficienza dei dispositivi mobili, ma anche per minimizzare l'impatto ambientale. MobileLLM, con il suo ridotto consumo di energia, rappresenta un modello per lo sviluppo di future architetture AI orientate all'efficienza energetica, contribuendo a ridurre le emissioni di CO2 legate all'uso dei modelli AI tradizionali basati sul cloud.

L'approccio di Meta con MobileLLM dimostra anche che le tecnologie AI possono essere democratizzate, rendendole accessibili a un ampio spettro di utenti e sviluppatori. Continuare a sviluppare modelli che siano potenti ma leggeri può contribuire a ridurre le barriere d'accesso all'innovazione, permettendo a più attori di creare soluzioni basate sull'intelligenza artificiale. Questo potrebbe accelerare il progresso in settori come l'educazione, la sanità, la logistica e molti altri ambiti che possono beneficiare di intelligenza artificiale distribuita e on-device.

Conclusioni

L’avvento di modelli come MobileLLM apre un nuovo paradigma nel mondo dell’intelligenza artificiale distribuita: la transizione dall’uso centralizzato su cloud all’esecuzione diretta su dispositivi mobili implica cambiamenti radicali nella struttura operativa e di business dell’AI. Decentralizzare i modelli non significa soltanto risolvere questioni tecniche di latenza o consumo energetico; mette anche in discussione il modello tradizionale di controllo e possesso dei dati. La possibilità di implementare modelli intelligenti direttamente su dispositivi personali abilita un approccio più indipendente e autonomo, con un impatto significativo sulla privacy degli utenti, che possono evitare di inviare i propri dati a server remoti, mitigando rischi di violazioni o utilizzi impropri.

In ottica aziendale, MobileLLM rappresenta una riduzione significativa dei costi operativi, poiché le operazioni di inferenza possono avvenire localmente, riducendo il bisogno di mantenere infrastrutture di cloud costose e scalabili per supportare milioni di utenti. Ciò implica una maggiore sostenibilità nel lungo periodo, sia per l’azienda, sia per l’ambiente, poiché si riduce drasticamente il consumo energetico correlato alla gestione centralizzata dell’AI. Questa svolta porta a interrogarsi sulle strategie di investimento delle imprese, che potrebbero essere costrette a ripensare le infrastrutture tecnologiche esistenti e a puntare su soluzioni più efficienti dal punto di vista energetico e delle risorse.

Dal punto di vista del mercato, l’accessibilità a modelli ottimizzati per dispositivi mobili favorisce una democratizzazione dell’AI. La riduzione della dipendenza dai grandi provider cloud permette a piccole imprese e sviluppatori indipendenti di integrare l’intelligenza artificiale nei propri prodotti con costi e barriere d’ingresso ridotti, potenzialmente espandendo l’adozione e l’innovazione in settori prima limitati. Le aziende che comprenderanno e sapranno sfruttare questa opportunità potranno accelerare il time-to-market di soluzioni innovative, differenziandosi in mercati competitivi come la sanità, l’educazione e l’automazione industriale.

L’effetto di MobileLLM va oltre i benefici tecnici e apre a riflessioni strategiche per le imprese. La prossimità dei modelli ai dati degli utenti finali implica infatti una capacità maggiore di personalizzazione in tempo reale, permettendo applicazioni proattive che reagiscono e si adattano autonomamente agli ambienti circostanti. Questo scenario crea valore aggiunto, rendendo i servizi più reattivi e personalizzati, qualità sempre più richieste dagli utenti in contesti come assistenza vocale, realtà aumentata e domotica. In questa ottica, investire in modelli compatti on-device può rivelarsi cruciale per quelle aziende che desiderano creare esperienze utente fluide e prive di interruzioni, specie in ambienti dove la connessione Internet potrebbe non essere costante o affidabile.

L’evoluzione futura di modelli come MobileLLM sarà orientata verso una maggiore efficienza computazionale e una scalabilità ancora più capillare, anche su dispositivi IoT e wearable, i quali potranno supportare processi decisionali locali e autonomi. Questo presuppone che le aziende si preparino a gestire un ecosistema distribuito di intelligenza artificiale, dove ciascun dispositivo diventa nodo di elaborazione, riducendo ulteriormente la necessità di infrastrutture centrali e aumentando la resilienza dell’intero sistema. In questo contesto, sarà vitale sviluppare competenze specifiche e adottare architetture flessibili in grado di sfruttare appieno l’intelligenza distribuita.

In sintesi, MobileLLM non solo risponde a sfide immediate, come il risparmio energetico e la riduzione della latenza, ma delinea un nuovo quadro strategico per il futuro dell’intelligenza artificiale applicata. Aziende e sviluppatori che sapranno cogliere questo cambiamento avranno l’opportunità di creare prodotti più sostenibili, sicuri e accessibili, in grado di adattarsi meglio alle esigenze dinamiche del mercato e degli utenti.

Podcast: https://spotifyanchor-web.app.link/e/dr3o5WljmOb

Fonte: https://arxiv.org/abs/2402.14905