Carenza e scarsa qualità dei dati per addestramento dell'intelligenza artificiale

Andrea Viliotti
8 apr 2024
Tempo di lettura: 7 min

Aggiornamento: 11 lug 2024

Nel panorama odierno, la dipendenza dai dati per l’addestramento dell'intelligenza artificiale pone le aziende tecnologiche di fronte a sfide come la scarsità di dati di qualità e restrizioni di accesso. Ciò enfatizza la necessità di gestire i dati in modo etico ed efficiente, innovando in raccolta e analisi per soluzioni AI solide. L'etica digitale, la trasparenza e il rispetto per privacy e diritti intellettuali diventano cruciali, così come l'attenzione alla diversità e inclusività nei modelli AI. I cambiamenti in atto aprono prospettive per un nuovo mercato dei dati che dia importanza a originalità e qualità e in generale alla creatività umana.

Carenza e scarsa qualità dei dati per l’addestramento dell'intelligenza artificiale

Negli ultimi anni, i dati online sono diventati una risorsa cruciale per le principali aziende tecnologiche nello sviluppo di modelli di intelligenza artificiale sempre più avanzati. Con l'evoluzione dei modelli di AI, come quelli sviluppati da OpenAI, Google e altre aziende, si è generata una crescente domanda di enormi quantità di informazioni di alta qualità da cui apprendere. Questa esigenza ha messo sotto pressione la disponibilità di dati pubblici online, portando alcuni editori a limitare l'accesso ai loro dati per queste compagnie tecnologiche. Di conseguenza, queste ultime si trovano ad affrontare una potenziale carenza di dati di alta qualità che potrebbe rallentare lo sviluppo dell'AI nei prossimi anni.

OpenAI non fornisce informazioni precise sui metodi di addestramento di GPT-4, ma esperti come Pablo Villalobos dell'Epoch Research Institute hanno stimato che GPT-4 abbia elaborato una quantità enorme di dati, arrivando a trattare fino a 12 trilioni di token, cioè entità di testo che possono essere parole o pezzi di esse.

Guardando al futuro, considerando le attuali tendenze di sviluppo, GPT-5 potrebbe richiedere un salto quantico nella raccolta di dati, necessitando tra i 60 e i 100 trilioni di token per il suo addestramento. Tuttavia, Pablo Villalobos ci mette in guardia: anche accedendo a tutte le risorse linguistiche e visive di alta qualità a nostra disposizione, potremmo trovarci di fronte a un'enorme carenza, mancando all'appello tra i 10 e i 20 trilioni di token.

Per far fronte a questa sfida, le aziende stanno esplorando nuove fonti di dati e riconsiderando i metodi con cui addestrano i sistemi di AI. Una strategia discussa da OpenAI è quella di addestrare il suo prossimo modello, il GPT-5, aggiungendo al corpus utilizzato per GPT-4 ulteriori trascrizioni di video pubblici di YouTube. Altre aziende stanno sperimentando l'uso di dati sintetici come materiale di addestramento, sebbene ciò possa portare a malfunzionamenti potenzialmente gravi.

Questa corsa all'acquisizione di dati evidenzia come, negli ultimi 18 mesi, sia diventato sempre più chiaro che i dati digitali giocano un ruolo cruciale nello sviluppo dell'intelligenza artificiale. Aziende come Meta e Google hanno sfruttato i dati online per anni per i loro servizi pubblicitari, mentre Netflix e Spotify li hanno utilizzati per raccomandare film e musica.

Addestramento dell'intelligenza artificiale

La sfida della crescita nei modelli di intelligenza artificiale è multidimensionale e complessa. La maggior parte dei dati online non è direttamente applicabile all'addestramento dell'AI, a causa di carenze quali frammentazione e contenuti di bassa qualità. È fondamentale riconoscere che, nonostante l'ampia disponibilità di informazioni su Internet, non tutto il sapere umano è rappresentato, né tutti i punti di vista sono inclusi. Inoltre, alcune informazioni diffuse online possono essere inaffidabili o inaccurate.

La causa intrapresa dal New York Times contro OpenAI e Microsoft può essere interpretata come un'azione simbolica, segnando un punto di svolta nella discussione riguardo alla proprietà intellettuale e al diritto d'autore nell'era digitale. La decisione di alcune testate giornalistiche di limitare l'accesso ai loro contenuti da parte delle piattaforme AI riflette una preoccupazione per il mantenimento della proprietà e del controllo sul materiale originale.

Parallelamente, la mobilitazione della comunità artistica pone in rilievo la necessità di riconoscere e proteggere l'originalità e l'unicità delle opere d'arte nell'ambito della produzione alimentata dall'intelligenza artificiale. Questa situazione solleva questioni fondamentali riguardanti l'etica dell'utilizzo delle opere frutto dell’ingegno artistico per l'addestramento delle piattaforme di AI, senza il consenso esplicito degli autori.

Inoltre, la diffusione sui siti internet di contenuti prodotti dall'intelligenza artificiale favorisce un circolo vizioso, che può peggiorare la qualità dei dati disponibili per gli addestramenti dell’AI. È altresì importante sottolineare che i modelli di intelligenza artificiale, sviluppati da OpenAI e Google, dipendono dai motori di ricerca esistenti per accedere alle informazioni. Questi motori di ricerca, nonostante siano avanzati, applicano dei filtri di selezione delle informazioni che possono non riflettere completamente la varietà e la ricchezza del sapere disponibile su Internet, essendo influenzati dai loro modelli di business, principalmente legati alla pubblicità.

Il ricorso a database come il Common Crawl, un archivio web utilizzato ampiamente dagli sviluppatori di AI, si rivela limitato poiché solo una frazione delle informazioni raccolte si dimostra utile per l'addestramento dell'AI.

Queste restrizioni ostacolano l'apprendimento e lo sviluppo dei modelli di intelligenza artificiale, rallentando potenzialmente i progressi nel settore.

Per superare queste sfide, alcune aziende, come OpenAI, stanno esplorando soluzioni alternative e innovative, come la creazione di un mercato dei dati. In un tale mercato, il valore di ciascun dato utilizzato per l'addestramento potrebbe essere valutato e compensato, offrendo un approccio più sostenibile ed etico allo sviluppo dell'intelligenza artificiale.

Le strategie innovative per l'addestramento AI

I dati sintetici, generati attraverso modelli di intelligenza artificiale, sono visti come una potenziale soluzione alla crescente carenza di dati di alta qualità necessari per l'addestramento dell'AI. Questi dati possono aiutare a colmare il divario creato dalla limitata disponibilità di dati online utili e dalla restrizione all'accesso imposte da alcune piattaforme. Tuttavia, l'uso di dati sintetici comporta rischi significativi, poiché i modelli di AI possono introdurre errori o pregiudizi nei dati che generano, portando potenzialmente a ciò che viene chiamato "model collapse", dove il modello produce risultati incoerenti o privi di senso.

La generazione di dati sintetici si basano sulla collaborazione tra due modelli AI, la prima piattaforma genera dati (testo, immagini, ecc.) in base al suo apprendimento dovuto all’esposizione ai dati recuperati sul web, mentre la seconda piattaforma valuta questi dati per determinarne la qualità o l'utilità. Questo processo simula un ciclo di feedback simile a quello umano, dove il "creatore" propone idee e il "critico" valuta. Questa collaborazione può teoricamente produrre dati sintetici di alta qualità che sono utili e affidabili per l'addestramento di ulteriori modelli di AI, ma la sua efficacia dipende fortemente dalla precisione del modello valutatore.

Le prospettive future per l'uso di dati sintetici nell'addestramento dell'AI includono lo sviluppo di metodi più sofisticati e affidabili per la loro generazione e valutazione. Man mano che la tecnologia evolve è probabile che i dati sintetici diventino una componente sempre più importante dell'ecosistema dell'AI, offrendo una risorsa preziosa per l'addestramento senza esaurire le fonti di dati esistenti.

Tuttavia, l'adozione di dati sintetici, sebbene offra il vantaggio di poter essere prodotti in grande quantità e modellati per simulare svariati scenari, solleva questioni di rilievo in termini di etica e legalità. Questo aspetto è particolarmente sensibile quando tali dati derivano o si ispirano a informazioni attinenti agli individui reali, toccando temi delicati come la privacy, i diritti sulla proprietà intellettuale e la chiarezza nell'utilizzo delle informazioni.

Un aspetto critico legato all'impiego di dati online o sintetici è la loro capacità di riflettere accuratamente la diversità e la complessità della realtà. Questo limite diventa palese quando si riflette sulla vasta e variegata gamma di informazioni accessibili sul web, che, nonostante la loro abbondanza, rappresentano soltanto una frazione dell'intero patrimonio conoscitivo umano. Diverse aree della conoscenza, quelle legate a tradizioni orali o culture poco rappresentate in rete, i documenti storici non ancora digitalizzati o non disponibili per l'addestramento dell'intelligenza artificiale, rischiano di essere ignorate.

Questa mancanza si manifesta nel rischio che i sistemi di intelligenza artificiale, malgrado l'avanzamento tecnologico, non siano in grado di acquisire una comprensione profonda e autentica delle varie realtà umane e culturali.

Riflessioni e conclusioni

La situazione corrente nel campo dell'intelligenza artificiale segna un periodo decisivo sia per le imprese tecnologiche sia per l'ecosistema digitale nel suo insieme. L'aumento della dipendenza dai dati per lo sviluppo di modelli di AI avanzati evidenzia l'importanza fondamentale di una gestione dei dati che sia al contempo etica ed efficiente. Le implicazioni per le aziende si estendono ben oltre l'aspetto puramente tecnologico, abbracciando dimensioni strategiche e filosofiche e sollecitando un ripensamento delle modalità con cui i dati vengono acquisiti, utilizzati e condivisi.

Per le imprese, sia quelle emergenti sia quelle affermate nel settore tecnologico, l'attuale scenario pone un duplice imperativo. Da una parte, emerge la necessità di innovare nei processi di raccolta e analisi dei dati, al fine di garantire lo sviluppo continuo di soluzioni AI che siano allo stesso tempo robuste e flessibili. Dall'altra parte, si presenta l'opportunità di affermarsi come pionieri nell'etica digitale, promuovendo la trasparenza e il rispetto per la privacy e per i diritti di proprietà intellettuale. Questo approccio, oltre a mitigare potenziali controversie legali e problemi di immagine, può contribuire a instaurare un rapporto di fiducia con utenti e clienti, sempre più attenti alle tematiche etiche legate al digitale.

L'introduzione di dati sintetici, benché promettente, richiede cautela per evitare il rischio di "crollo del modello" (model collapse) e per assicurare che i dati generati riflettano una realistica varietà e complessità della cultura umana.

In questa fase di rapida evoluzione dell'intelligenza artificiale generativa, l'esigenza di reperire fonti di dati autorevoli per l'allenamento di modelli AI sia efficaci che efficienti solleva questioni significative per il settore imprenditoriale. Da un lato, è evidente che i dati continuano a essere un pilastro fondamentale per i modelli di business esistenti, in particolare quelli che si basano sulla proprietà intellettuale e sui diritti d'autore.

D'altro canto, nello scenario attuale dominato dall'intelligenza artificiale, i dati assumono un valore aggiunto: diventano il motore per l'innovazione e la creazione di nuove soluzioni, servizi o prodotti basati sull'AI. Questa trasformazione li rende centrali nella formazione di un mercato dei dati completamente nuovo, dove le informazioni non sono soltanto un bene da custodire ma diventano una commodity scambiabile, capace di generare nuove opportunità economiche. In questo contesto, l'impresa è chiamata a riflettere su come navigare tra la protezione e l'apertura, tra il mantenimento del valore tradizionale dei dati e l'esplorazione del loro potenziale innovativo in ambito AI.

La riflessione si spinge oltre, evidenziando come, nonostante le tecnologie digitali abbiano in passato ridotto il valore percepito della conoscenza rendendola più facilmente accessibile, ora lo stesso contesto digitale offra la possibilità di rivalutare e capitalizzare la conoscenza tramite la condivisione etica ed economica con le piattaforme di AI. Questo non solo favorirebbe la generazione di nuova conoscenza, ma anche la valorizzazione dell'ingegno umano, spostando il focus dalla mera riproduzione della conoscenza esistente alla creazione di nuove idee e concetti.

Concludendo, per le aziende attive nel campo dell'AI, l'attuale scenario impone una riflessione approfondita su come affrontare le sfide poste dalla crescente domanda di dati. Innovare nelle tecniche di addestramento e adottare un approccio etico ed economico ai dati rappresentano strategie fondamentali per costruire un vantaggio competitivo sostenibile in un panorama tecnologico, sociale e culturale in rapida evoluzione.

Carenza e scarsa qualità dei dati per addestramento dell'intelligenza artificiale

Addestramento dell'intelligenza artificiale

Le strategie innovative per l'addestramento AI

Riflessioni e conclusioni

Post recenti

Commenti