Microsoft Phi-3: l’AI per smartphone, laptop e PC

Andrea Viliotti
24 apr 2024
Tempo di lettura: 12 min

Aggiornamento: 11 lug 2024

Microsoft espande il suo impegno in intelligenza artificiale con la serie Phi-3, modelli AI compatti per vari dispositivi. Le versioni Phi-3-mini, Phi-3-small e Phi-3-medium offrono prestazioni elevate e compatibilità con hardware standard, operando anche offline. Il Phi-3-mini, con 3,8 miliardi di parametri, raggiunge l'68,8% in MMLU e 8,38 in MT-bench, indicando una robusta capacità di elaborazione del linguaggio. Questi modelli, più economici e open source, potenziano l'accesso all'AI, specie per le PMI, pur presentando limitazioni per applicazioni che necessitano alta precisione.

Microsoft PHI-3: l’AI per smartphone, laptop e PC

Microsoft continua a espandere il suo impegno nel settore dell'intelligenza artificiale attraverso il lancio della serie Phi-3, un insieme di modelli AI di dimensioni ridotte. Questa iniziativa strategica mira a diversificare l'offerta dell'azienda, proponendo soluzioni più accessibili e adatte a una vasta gamma di utenti.

Microsoft ha introdotto tre varianti: Phi-3-mini, Phi-3-small e Phi-3-medium, con Phi-3-mini disponibile da subito. Nonostante le dimensioni contenute, il modello più piccolo offre prestazioni che sfiorano quelle del GPT-3.5, noto per aver alimentato il rivoluzionario chatbot ChatGPT di OpenAI. Un vantaggio significativo di Phi-3 è la sua compatibilità con hardware standard e la possibilità di operare offline, elementi che riducono drasticamente i costi di implementazione.

Il modello di linguaggio Phi-3-mini, nonostante i suoi 3,8 miliardi di parametri, dimostra prestazioni paragonabili a quelle di modelli significativamente più ampi, come il Mixtral 8x7B con 46,7 miliardi di parametri e il GPT-3.5 con 175 miliardi di parametri. Nonostante la sua scala ridotta, Phi-3-mini si distingue per l'efficienza, raggiungendo il 68,8% nel benchmark MMLU, che valuta la comprensione del linguaggio su un'ampia varietà di temi, e 8,38 in MT-bench, che misura le capacità di elaborazione del testo. Inoltre, la sua architettura consente l'uso su dispositivi portatili, offrendo un significativo vantaggio in termini di portabilità.

L'elemento distintivo del phi-3-mini risiede nel suo innovativo set di dati di addestramento, una collezione estesa rispetto al predecessore phi-2, che include sia contenuti web accuratamente selezionati sia dati sintetici. Questa base di dati raffinata garantisce non solo un incremento della performance, ma anche una maggiore robustezza e sicurezza, nonché un'ottimizzazione per il formato di conversazione.

Microsoft ha esplorato le potenzialità di scaling del modello, con le varianti phi-3-small e phi-3-medium, con 7 miliardi e 14 miliardi di parametri rispettivamente, addestrati su 4,8 trilioni di token. Questi modelli estesi mostrano capacità incrementate significative, con punteggi rispettivamente del 75,3% e 78,2% su MMLU e 8,7 e 8,91 su MT-bench.

L'industria tecnologica sta testimoniando una graduale transizione verso l'adozione di questi modelli AI più compatti, in risposta alla domanda crescente per soluzioni più economiche e che non richiedano potenti infrastrutture di elaborazione. Microsoft stessa prevede che l'utilizzo dei nuovi modelli sarà "sostanzialmente più economico" rispetto ai modelli con più parametri.

Tuttavia, il fatto di rendere i modelli più piccoli e meno costosi potrebbe andare a scapito delle prestazioni. Questi modelli ridotti potrebbero essere meno precisi e quindi meno adatti a compiti che richiedono un'alta qualità. Eric Boyd di Microsoft ha giustificato questa scelta, sottolineando che alcune professioni, come medici e analisti finanziari, possono avere bisogno della maggiore accuratezza fornita dai modelli di dimensioni maggiori, mentre per usi come la pubblicità online personalizzata, i modelli meno onerosi potrebbero essere adeguati.

Microsoft non è l'unico attore in questa iniziativa. Altri colossi del settore tecnologico, inclusi Meta e Google, hanno anch'essi sviluppato modelli di intelligenza artificiale più compatti e, similmente a Microsoft con il suo Phi-3, hanno optato per rendere questi sistemi open source. Questa scelta promuove un più ampio utilizzo e personalizzazione da parte di sviluppatori e aziende espandendo notevolmente l'applicazione dell'AI in numerosi settori.

Dentro lo sviluppo di Microsoft phi-3

Nell'ambito dell'intelligenza artificiale, gli ultimi anni hanno assistito a una crescita esponenziale nelle dimensioni e nelle capacità dei Grandi Modelli di Linguaggio (LLM). La transizione da modelli di un miliardo di parametri, come il GPT-2, a quelli che oggi vantano trilioni di parametri, è stata spinta da ciò che è noto come le leggi di scaling. Queste leggi indicano miglioramenti prevedibili nell'addestramento di modelli su larga scala. Tuttavia, per sostenere un'escalation di questa portata, è essenziale disporre di una vasta quantità di dati di addestramento. Questo si scontra con la limitata disponibilità e, soprattutto, la scarsa qualità dei dati reperibili online.

Phi-3 di Microsoft sfida questa convenzione mostrando come i LLM possano rivoluzionare il modo in cui interagiamo e utilizziamo i dati. I modelli come Phi dimostrano come una combinazione di filtraggio avanzato dei dati web e la generazione di dati sintetici possano equiparare le prestazioni di modelli relativamente più piccoli a quelle di colossi del settore. Ad esempio, il modello phi-2, con solo 2,7 miliardi di parametri, ha eguagliato le prestazioni di modelli 25 volte più grandi.

Dal punto di vista tecnico, phi-3-mini si basa su un'architettura di decoder transformer con una lunghezza di contesto standard. Il modello è ottimizzato per dialoghi efficaci grazie a un sofisticato template di chat, e la sua struttura modulare consente una facile integrazione con altri sviluppi nel framework open source Llama-2 che favorisce la collaborazione e lo sviluppo condiviso tra programmatori e ricercatori. Inoltre, Microsoft ha introdotto phi-3-mini-128K, che estende notevolmente la lunghezza del contesto grazie alla tecnologia LongRope. Questo amplia significativamente la capacità del modello di mantenere contesti più estesi, rendendolo più efficace nel gestire conversazioni complesse o argomenti dettagliati.

Phi-3-mini: Processing linguistico su smartphone

Phi-3-mini è progettato per offrire capacità di elaborazione linguistica avanzata direttamente sui dispositivi mobili. Questo modello, grazie alla sua struttura altamente efficiente, è stato quantizzato a 4 bit, riducendo il suo impatto sulla memoria del dispositivo a circa 1,8 GB. Questo rende phi-3-mini particolarmente adatto per l'esecuzione su hardware non specializzato come gli smartphone.

La sperimentazione ha incluso l'implementazione di phi-3-mini su un iPhone 14, equipaggiato con il potente chip A16 Bionic. Il modello funziona nativamente e completamente offline, garantendo un'elaborazione del linguaggio rapida e indipendente dalla connettività di rete. Durante i test, il modello ha dimostrato di elaborare oltre 12 token al secondo, offrendo risposte in tempo reale senza alcun ritardo percepibile.

Questa capacità di eseguire un modello di linguaggio così sofisticato direttamente su un cellulare apre scenari innovativi per le applicazioni mobili. Gli sviluppatori possono ora integrare funzionalità di intelligenza artificiale avanzata in app che operano in modalità autonoma, migliorando significativamente l'esperienza utente in scenari di utilizzo senza connessione internet.

Metodologia di addestramento

L’addestramento di phi-3 ha adottato l'approccio delineato nella ricerca "Textbooks Are All You Need", di Suriya Gunasekar, Yi Zhang, Jyoti Aneja e colleghi, che ha introdotto l'utilizzo di dati di addestramento di alta qualità per superare le tradizionali leggi di scaling nei modelli di linguaggio.

Il fulcro della metodologia di addestramento è l'impiego di dati web accuratamente filtrati per il loro contenuto educativo proveniente da svariate fonti online, unitamente a dati sintetici generati da altri LLM.

L'addestramento si articola in due fasi sequenziali distinte.

Fase 1: La fase iniziale si concentra sulla selezione e integrazione di fonti web mirate a instillare al modello una solida base di conoscenze generali e competenze linguistiche. Questa selezione è progettata per preparare il modello con un'ampia comprensione di varie discipline e contesti.

Fase 2: Successivamente, viene integrato un insieme ancora più ristretto dei dati web usati nella Fase 1 con dati sintetici. Questi ultimi sono specificamente progettati per sviluppare ulteriormente nel modello capacità di ragionamento logico e competenze specialistiche in settori di nicchia.

Questa metodologia bilanciata e stratificata non solo migliora la qualità del modello in termini di comprensione e produzione linguistica, ma consente anche di affinare specifiche abilità di ragionamento e risoluzione di problemi.

Regime ottimale dei dati

Nell'ambito dell'evoluzione continua dei modelli di linguaggio, Microsoft ha adottato un approccio che si allontana dalle metodologie tradizionali incentrate su un "regime ottimale di calcolo" o su pratiche di sovra-addestramento. Il team di Microsoft si è orientato verso una strategia focalizzata sulla qualità dei dati, cercando di stabilire e conseguire un "regime ottimale dei dati" per modelli di dimensioni più contenute. Il termine "ottimale" è utilizzato qui con un'intenzione aspirazionale, mirando a migliorare costantemente la qualità del mix di dati utilizzati per l'addestramento.

La metodologia implica un'accurata selezione e filtraggio dei dati web per assicurare che il contenuto sia ricco di "conoscenza" appropriata, eliminando elementi superflui come risultati giornalieri di eventi sportivi, che possono essere rilevanti per modelli più grandi ma sono meno utili per modelli più piccoli come il phi-3-mini. Questo favorisce lo sviluppo delle abilità del modello nel perfezionare le funzioni di "ragionamento”.

Per testare l'efficacia di questo approccio, è stato sviluppato phi-3-medium, un modello da 14 miliardi di parametri ma non ancora rilasciato al pubblico. Questo modello mantiene la stessa struttura di analizzatore lessicale (tokenizer) e architettura del phi-3-mini, ma si differenzia per essere stato addestrato su una quantità leggermente maggiore di token, arrivando a 4,8 trilioni.

I test hanno dimostrato che l'aumento dei parametri da 3,8 miliardi a 7 miliardi di parametri porta a miglioramenti significativi nei benchmark, ma i vantaggi si riducono sensibilmente quando si passa a 14 miliardi di parametri. Questo potrebbe indicare che la combinazione di dati usata per addestrare il modello phi-3- medium potrebbe non essere ancora del tutto adeguata a modelli di questa dimensione.

Microsoft continua ad analizzare i risultati dei benchmark, inclusi alcuni cali di prestazione notati in test specifici come HumanEval, un benchmark di programmazione che valuta la capacità degli AI di risolvere problemi di codifica. Questo processo serve per perfezionare la comprensione e l'ottimizzazione del "regime ottimale dei dati". Le prestazioni del modello phi-3-medium devono quindi essere considerate come preliminari, riflettendo una fase attiva di sperimentazione e apprendimento continuo su come la qualità dei dati influenzi direttamente le capacità di modelli di intelligenza artificiale di diverse dimensioni.

Post-addestramento

Nella fase di post-addestramento dei modelli di linguaggio phi-3, Microsoft ha adottato un approccio rigoroso e mirato, impiegando sia l'affinamento istruito supervisionato, che consiste nell'aggiustare il modello con dati annotati manualmente per migliorare specifiche capacità, sia l'affinamento delle preferenze tramite Differential Privacy Optimization (DPO), un metodo che ottimizza il comportamento del modello preservando la privacy degli utenti. Questa combinazione di strategie di perfezionamento è stata principalmente finalizzata a ottimizzare le performance del modello nelle interazioni conversazionali, incrementando al contempo la sua robustezza e sicurezza.

Durante la fase di affinamento istruito supervisionato, il team di Microsoft ha generato e curato un set specifico di dati che contenevano istruzioni chiare, consentendo al modello di imparare a rispondere in maniere che rispettano le aspettative e le norme linguistiche specifiche. Questo metodo ha permesso di affinare le capacità del modello nel comprendere e seguire le istruzioni, migliorando significativamente la sua efficacia e precisione nelle risposte.

Parallelamente, l'affinamento delle preferenze con DPO ha introdotto un livello di ottimizzazione basato sulla privacy differenziale, che non solo ha migliorato la personalizzazione delle risposte del modello in base alle preferenze dell'utente, ma ha anche rafforzato la sicurezza dei dati trattati. Questa tecnica ha permesso di minimizzare il rischio di esposizione di informazioni sensibili o di bias indesiderati durante le interazioni del modello.

Questi sforzi combinati di post-addestramento hanno portato a un modello sofisticato e attrezzato per affrontare sfide pratiche nel mondo reale, rendendolo uno strumento più potente e affidabile per applicazioni che vanno dalla conversazione automatizzata al supporto clienti, fino alla gestione di interazioni complesse e sensibili.

Benchmarks accademici

Nel contesto accademico di valutazione dei modelli di linguaggio, il modello phi-3-mini è stato messo alla prova in una serie di test che includevano modelli open-source di rilievo come phi-2, Mistral-7b-v0.1, Mixtral-8x7b, Gemma 7B, Llama-3-instruct-8b e GPT-3.5. Questi test, cruciali per valutare le capacità di ragionamento dei modelli sia in termini di logica che di senso comune, hanno fornito una misura comparativa delle prestazioni tra diverse generazioni e varianti di modelli di linguaggio.

In una serie di benchmark tra cui MMLU, HellaSwag e ANLI, il phi-3-mini ha registrato punteggi rispettivamente del 68.8%, 76.7% e 52.8%, dimostrando un'impressionante competenza nonostante le sue dimensioni più contenute rispetto ai modelli più grandi. Altri test come GSM-8K e MedQA hanno visto il phi-3-mini ottenere rispettivamente 82.5% e 53.8%, sottolineando ulteriormente la sua efficienza in diversi scenari di comprensione e applicazione.

La performance complessiva di phi-3-mini si posiziona al 71.2% nella media dei benchmark, mostrando che anche un modello più piccolo può competere efficacemente con i suoi omologhi più grandi e più costosi, come il GPT-3.5, il quale ha ottenuto una media del 75.3%. Questi dati evidenziano come le dimensioni ridotte non compromettano necessariamente l'efficacia di un modello di linguaggio, rendendo phi-3-mini una scelta valida per applicazioni che richiedono un equilibrio tra costi e prestazioni.

Microsoft ha implementato un rigoroso protocollo standardizzato per assicurare la comparabilità dei risultati. Questo protocollo include l'uso di prompt basati su pochi esempi, con la "temperatura" impostata a zero, una pratica standard del settore che consente di generare risposte più deterministiche e consistenti, riducendo la variabilità e casualità nelle risposte del modello. I prompt e il numero di esempi utilizzati sono forniti da uno strumento interno di Microsoft, creato specificamente per valutare le prestazioni dei modelli di linguaggio senza ottimizzazioni ad hoc per i modelli phi-3.

È interessante notare che, durante i test, il team ha identificato che l'introduzione di un "##" prima della domanda in un prompt può significativamente migliorare i risultati del phi-3-mini su molti benchmark. Tuttavia, il team ha deciso di non incorporare questa modifica nei prompt utilizzati per garantire un confronto equo e uniforme. Questa scoperta sottolinea l'importanza di affinare ulteriormente le tecniche di valutazione per esplorare completamente le capacità dei modelli.

Sicurezza

Il modello phi-3-mini è un esempio emblematico di come le pratiche di AI responsabile possano essere integrate nello sviluppo di modelli di linguaggio. Sviluppato in conformità ai principi di AI responsabile di Microsoft, phi-3-mini ha subito un processo di post-addestramento focalizzato su sicurezza, utilità e minimizzazione dei danni, dimostrando un impegno verso la creazione di tecnologie affidabili ed etiche.

Strategie di mitigazione dei rischi

Durante il post-addestramento, il team ha implementato diverse strategie per affinare la sicurezza e l'efficacia del modello.

Allineamento alla sicurezza: L'uso di set di dati di preferenze specificamente curati ha aiutato a migliorare la sicurezza e l'innocuità del modello.

Team di controllo rosso: Un team indipendente ha esaminato iterativamente il modello per identificare e mitigare potenziali vulnerabilità, guidando l'affinamento dei dati.

Test automatizzati e valutazioni RAI: Sono stati effettuati test su diverse categorie di danni potenziali per valutare la robustezza del modello contro contenuti nocivi.

Risultati del Benchmark RAI

I risultati del benchmark RAI interno riflettono l'efficacia delle misure adottate. Nel confronto con altri modelli come phi-2, Mistral-7b-v0.1, Gemma 7B e Llama-3-Instruct-8B, phi-3-mini ha mostrato un netto miglioramento in termini di non fondatezza e tassi di difetto.

Non fondatezza (Ungroundedness): phi-3-mini-4k e phi-3-mini-128k hanno ottenuto risultati migliori degli altri modelli, dimostrando una maggiore accuratezza nelle informazioni generate. Nello specifico, phi-3-mini-4k ha registrato un punteggio di non fondatezza pari a 0.603, mentre phi-3-mini-128k ha segnato 0.637, dimostrando una significativa efficacia rispetto ai punteggi più alti ottenuti da modelli concorrenti come Mistral-7b con 0.935 e Gemma 7b con 0.679.

Proprietà intellettuale (DR-1): phi-3-mini ha registrato percentuali inferiori di risposte che violano i diritti di proprietà intellettuale rispetto a modelli più grandi. Le violazioni di proprietà intellettuale sono state del 23.95% per phi-3-mini-4k e del 21.50% per phi-3-mini-128k, a confronto con percentuali più elevate come il 38,33% di Gemma 7B e il 37.30% di Llama-3-Instruct-8B.

Continuazione e riassunto di contenuti dannosi (DR-3): Entrambe le varianti di phi-3-mini hanno dimostrato una riduzione nel generare contenuti dannosi, un risultato diretto delle ottimizzazioni nel post-addestramento. Per phi-3-mini-4k e phi-3-mini-128k, i tassi di contenuto dannoso nel riassunto sono stati rispettivamente del 0.75% e dell'1.08%, sostanzialmente inferiori rispetto agli altri modelli come Mistral-7b (2.58%) e Llama-3-Instruct-8B (1.30%).

Questi dati mostrano chiaramente come un focus intenso sulla qualità dei dati e sulla sicurezza possa portare a miglioramenti tangibili nella riduzione dei rischi e nell'affidabilità del modello.

Limiti e potenzialità del modello phi-3-mini

Nell'analisi delle debolezze intrinseche del modello phi-3-mini, emerge che, nonostante raggiunga una capacità di comprensione linguistica e di ragionamento paragonabile a quella di modelli significativamente più grandi, esso è naturalmente limitato dalla sua dimensione, specialmente in termini di archiviazione di conoscenza fattuale estesa. Questa limitazione è evidente, ad esempio, nella bassa performance su benchmark come TriviaQA, dove la capacità di richiamare fatti specifici è essenziale.

Una possibile soluzione per superare questa barriera potrebbe essere l'integrazione con un motore di ricerca esterno, che permetterebbe al modello di accedere a una vasta quantità di informazioni in tempo reale. Questo approccio viene dimostrato attraverso l'uso dell'interfaccia Chat-UI di HuggingFace, che mostra come phi-3-mini possa essere potenziato da risorse esterne per migliorare la sua performance su task che richiedono una conoscenza dettagliata.

Un'altra debolezza significativa del modello phi-3-mini è la sua limitata capacità linguistica, attualmente circoscritta principalmente all'inglese. L'espansione verso il multilinguismo rappresenta un passo cruciale per i Piccoli Modelli di Linguaggio, specialmente per garantire l'equità e l'accessibilità globale delle tecnologie AI. Alcuni esperimenti preliminari con phi-3-small, che include più dati multilingua, mostrano risultati promettenti che possono essere esplorati ulteriormente.

Sfide persistenti e lavoro in corso

Il team di Microsoft sottolinea che nonostante si stiano facendo molti sforzi per migliorare i grandi modelli di linguaggio attraverso la scelta attenta dei dati con cui vengono allenati e ulteriori aggiustamenti dopo la loro creazione, permangono alcune difficoltà. Questi problemi includono errori nei fatti presentati, pregiudizi nei contenuti generati, la possibilità di creare contenuti inappropriati e questioni legate alla sicurezza. Queste sfide sono comuni in quasi tutti i modelli di linguaggio avanzati e per risolverli serve un lavoro costante e approfondito. I team specializzati nel testare e trovare errori in questi sistemi, noti come “team di controllo rosso”, hanno aiutato a scoprire e diminuire molti di questi problemi. Tuttavia, è evidente che c'è ancora molto da fare per rendere questi strumenti completamente sicuri ed efficaci.

Conclusioni

L'iniziativa di Microsoft di lanciare la serie Phi-3 segna un passo significativo nel settore dell'intelligenza artificiale, riflettendo una tendenza crescente verso lo sviluppo di modelli AI più compatti ed economici. Questa serie, partendo dal Phi-3-mini fino alle varianti più ampie come Phi-3-small e Phi-3-medium, si propone di democratizzare l'accesso all'intelligenza artificiale, rendendo la tecnologia non solo più accessibile ma anche operabile offline su dispositivi standard. Questa accessibilità potrebbe avere un impatto notevole sulle piccole e medie imprese che potrebbero non avere le risorse per investire in infrastrutture complesse o in modelli AI di grandi dimensioni.

Per gli imprenditori, questo sviluppo rappresenta una serie di opportunità e sfide. La riduzione dei costi di implementazione e la compatibilità con hardware non specializzato aprono nuove possibilità per l'incorporazione dell'AI in prodotti e servizi che erano precedentemente inaccessibili. Tuttavia, la riduzione delle dimensioni del modello e il conseguente potenziale calo delle prestazioni richiedono una valutazione attenta del tipo di applicazioni per cui questi modelli possono essere efficacemente utilizzati. Ad esempio, settori che richiedono un'alta precisione e affidabilità, come il settore medico o quello finanziario, potrebbero ancora necessitare di modelli più robusti e costosi.

Il vantaggio di un approccio scalabile come quello di Microsoft è la flessibilità nel soddisfare diverse esigenze, permettendo alle aziende di scegliere il modello che meglio si adatta al loro contesto operativo e budget. Inoltre, la decisione di rendere questi sistemi open source potenzia ulteriormente la personalizzazione e l'integrazione da parte degli sviluppatori, espandendo il potenziale impatto dell'AI su vari settori.

In conclusione, il lancio della serie Phi-3 di Microsoft non solo risponde alla crescente domanda per soluzioni AI più gestibili e meno costose, ma stimola anche un'innovazione continua nel modo in cui l'intelligenza artificiale può essere integrata nelle operazioni quotidiane delle imprese. Gli imprenditori dovrebbero considerare queste tecnologie come strumenti strategici, valutando attentamente come possono essere sfruttati per migliorare l'efficienza, la personalizzazione e l'esperienza del cliente, mantenendo sempre un occhio critico sulla qualità e l'applicabilità specifica del modello scelto.