DeepSeek sposta la guerra dell’AI dal modello al costo dell’inferenza
- Andrea Viliotti

- 1 minuto fa
- Tempo di lettura: 8 min
Il taglio dei prezzi e l’architettura open-weight mettono pressione al fossato dei laboratori occidentali. Ma compliance, fiducia e sanzioni impediscono una vittoria lineare della Cina.
La competizione globale sull’intelligenza artificiale sta cambiando terreno. Per due anni il vantaggio dei laboratori occidentali è stato raccontato soprattutto come una questione di scala: più GPU, più capitale, più data center, più modelli chiusi. DeepSeek introduce una frattura diversa: non promette soltanto prestazioni elevate, ma spinge il confronto sul costo industriale dell’inferenza, cioè sul prezzo necessario per trasformare un modello in lavoro quotidiano di agenti, software e imprese.
Questa non è una vittoria automatica della Cina né la sconfitta dell’Occidente. È, però, un segnale concreto: il potere nell’AI non dipende più solo da chi addestra il modello più grande, ma da chi rende sostenibile l’uso di miliardi di token, sessioni lunghe, cache ripetute e agenti che lavorano per ore dentro codice, documenti e processi aziendali.

Il prezzo del token diventa strategia industriale
La leva più visibile è il prezzo. Nel perimetro delle pagine prezzi e delle schede modello consultate al 30 maggio 2026, DeepSeek V4 Pro risulta offerto a 0,435 dollari per milione di token in ingresso e 0,87 dollari per milione di token in uscita. Il prezzo di cache hit è molto più basso: 0,003625 dollari per milione di token. La versione V4 Flash è ancora più aggressiva: 0,14 dollari in ingresso, 0,28 dollari in uscita e 0,0028 dollari per cache hit.
Il confronto va letto con precisione, perché non esiste un unico rapporto valido per tutti i modelli occidentali. Rispetto a Claude Sonnet 4.6, V4 Pro risulta circa 6,9 volte meno costoso sull’input e 17,24 volte sull’output. Rispetto a GPT-5.5, i rapporti calcolati sui prezzi ufficiali diventano 11,49 volte sull’input e 34,48 volte sull’output. Per V4 Flash contro Claude Haiku 4.5, la distanza è di 7,14 volte sull’input, 17,86 volte sull’output e 35,71 volte sulla cache. La conclusione non è che esista una formula unica del “dieci o venti volte meno”: la conclusione è che il divario è reale, ma dipende dal tipo di token e dal comparatore.
La cache è il punto decisivo. Nei workload agentici, lo stesso contesto viene letto e riletto: repository di codice, policy aziendali, contratti, manuali tecnici, conversazioni lunghe. Se il costo della rilettura si abbatte, cambia il conto economico dell’automazione. Per questo la partita non è soltanto modellistica. È una partita di contabilità industriale applicata al software.

Un’architettura pensata per vincoli reali
La seconda leva è tecnica. La scheda modello di DeepSeek V4 Pro indica un sistema da 1,6 trilioni di parametri totali, con 49 miliardi attivati; V4 Flash è indicato a 284 miliardi di parametri totali, con 13 miliardi attivati. In termini semplici: non tutta la massa del modello lavora a ogni passaggio. Per V4 Pro la quota attiva calcolata è circa il 3,06%; per V4 Flash circa il 4,58%.
La stessa documentazione attribuisce alla nuova architettura una riduzione del 90% nell’uso della cache KV rispetto alla generazione precedente e cita una finestra di contesto da un milione di token. Sono dati da trattare come dichiarazioni tecniche di scheda modello, non come benchmark indipendenti universali. Bastano però a chiarire il messaggio industriale: DeepSeek cerca di comprimere il costo operativo dove l’Occidente ha spesso accettato una crescita del capitale infrastrutturale come prezzo inevitabile della frontiera.
Il dato non autorizza una tesi estrema: non dimostra che l’ottimizzazione software aggiri i controlli all’export né che l’hardware non conti più. Dice una cosa più sottile e più importante: sotto vincolo di chip, memoria e accesso alle filiere, l’efficienza architetturale diventa una variabile geopolitica.
Il fossato americano non scompare, cambia natura
Il cosiddetto “token moat” della Silicon Valley non viene cancellato con un annuncio di prezzo. I laboratori occidentali mantengono vantaggi in distribuzione enterprise, fiducia, integrazione cloud, sicurezza, ecosistemi di sviluppatori e reputazione presso grandi aziende regolate. Ma il fossato cambia natura: non basta più avere il modello migliore se il costo di esecuzione spinge i clienti a smistare i carichi meno critici verso alternative più economiche.
Da qui nasce una biforcazione plausibile. Un livello premium continuerà a esistere per attività mission-critical: ingegneria complessa, workflow con responsabilità legale, ambienti regolati, dati sensibili, assistenti integrati in piattaforme già adottate. Sotto questo livello, però, il lavoro ad alto volume — agenti interni, automazioni, test, parsing documentale, routing tra modelli, riassunti, code assistants non critici — può diventare molto più sensibile al prezzo.
OpenRouter offre un segnale utile ma va usato con cautela. La pagina DeepSeek V4 Flash indicava 3,43 trilioni di token settimanali; l’annuncio societario di OpenRouter parlava di 25 trilioni di token a settimana, oltre 8 milioni di sviluppatori e più di 400 modelli. È un indicatore importante del mercato di routing, non una quota del traffico globale dell’AI. Per gli imprenditori conta il messaggio: la domanda non è più “quale modello scelgo?”, ma “quale modello uso per quale carico, a quale prezzo e con quale rischio?”.
La compliance frena la corsa
Il punto debole di una migrazione lineare verso modelli cinesi non è solo tecnico. È istituzionale. Per le imprese occidentali, soprattutto in finanza, sanità, difesa, industria critica e pubblica amministrazione, il costo non cancella le domande di compliance: dove vengono processati i dati, quale giurisdizione si applica, chi controlla la supply chain software, quali limiti impongono policy interne e regolatori.
La privacy policy di DeepSeek indica la possibilità che dati personali siano conservati o processati nella Repubblica Popolare Cinese; fonti di stampa e regolatori hanno inoltre riportato restrizioni o scrutinio in più Paesi e agenzie. Questo non autorizza accuse di backdoor o conclusioni su condotte non provate. Autorizza però una valutazione prudente: il prezzo più basso accelera i test tecnici, mentre la fiducia e la governance rallentano l’adozione nei contesti regolati.
Per molte imprese la soluzione non sarà “sostituire tutto”, ma segmentare. Modelli chiusi occidentali per dati sensibili e funzioni ad alta responsabilità; modelli open-weight o più economici per carichi isolati, auto-hosted o meno critici; marketplace di routing per comparare prestazioni e costo; audit interno per impedire che il risparmio operativo crei un rischio regolatorio più costoso del beneficio.
USA e Cina: chip, inferenza, fiducia
Nel confronto USA-Cina, la dimensione dei semiconduttori resta centrale. Le regole statunitensi sulle esportazioni di chip avanzati verso la Cina, con revisione caso per caso per prodotti della fascia H200 o MI325X-like, confermano che il compute resta una leva politica. Ma la mossa di DeepSeek suggerisce che il terreno dello scontro si allarga: dal possesso del chip alla capacità di produrre inferenza a basso costo sotto vincoli di accesso.
L’Occidente difende il vantaggio con capitale, cloud, ecosistemi chiusi, compliance e integrazione nei processi enterprise. La Cina prova a comprimere il costo marginale e a spingere il fronte open-weight. Tra i due modelli si apre lo spazio delle imprese: non osservatori passivi, ma acquirenti che possono spostare carichi, negoziare prezzi, ridisegnare architetture e costringere i fornitori a rendere più trasparente il rapporto tra performance e costo.
Il nodo finale è la fiducia. Un modello molto economico ma difficile da approvare in un comitato rischi non entra nei sistemi core. Un modello molto affidabile ma troppo costoso viene confinato alle funzioni dove il valore supera chiaramente il costo. La nuova competizione sarà decisa nella zona intermedia: dove il prezzo è abbastanza basso, il rischio abbastanza gestibile e l’integrazione abbastanza semplice da spostare davvero i carichi.

Orizzonte 31 dicembre 2026
Il primo segnale da monitorare è il prezzo dell’inferenza. Se i listini dei principali fornitori occidentali inizieranno a ridursi, soprattutto sui token di cache e sui carichi ad alto volume, sarà il segno che la pressione di DeepSeek non è solo narrativa. Il segnale è forte ma va letto per comparatori: input, output e cache non sono la stessa cosa.
Il secondo è la segmentazione del mercato. Entro il 31 dicembre 2026 il livello premium potrebbe restare solido per i workflow mission-critical, mentre il livello ad alto volume diventerà più contendibile. Non è una previsione di sorpasso; è una traiettoria di biforcazione.
Il terzo è l’adozione enterprise. I team tecnici proveranno alternative più economiche, ma i comitati di compliance e sicurezza peseranno data residency, giurisdizione, supply chain e procurement. La vera metrica non sarà il numero di demo, ma quante applicazioni entrano in produzione con dati reali e policy approvate.
Il quarto è il canale geopolitico. Se l’efficienza architetturale diventa una risposta strutturale ai vincoli di chip, il confronto USA-Cina si sposterà ancora di più verso controllo delle filiere, standard, procurement pubblico e restrizioni d’uso. Efficienza non significa bypass delle sanzioni: significa pressione strategica sul modo in cui le sanzioni producono effetti.
Il quinto è la supply chain del compute. Mancano dati verificati per quantificare in modo robusto il vantaggio hardware effettivo di DeepSeek sulla memoria HBM o su chip domestici specifici. La variabile da seguire è quindi più semplice: quanta inferenza utile riesce a produrre ciascun ecosistema per dollaro di infrastruttura disponibile.
Il sesto è la narrativa del capitale. Le società occidentali che investono miliardi in infrastrutture AI dovranno spiegare meglio il ritorno economico. Ma senza dati pubblici su ricavi, mix di prodotto e capex specifici non si può tradurre questa pressione in giudizi finanziari o indicazioni di mercato.
Che cosa cambia per le imprese
Per i CEO il tema non è scegliere tra Occidente e Cina, ma costruire un’architettura multi-modello governata. La domanda utile è: quali carichi devono stare nel livello premium e quali possono essere instradati verso modelli più economici senza aumentare il rischio?
Per CFO e COO il prezzo del token diventa una voce industriale. Nei processi agentici ad alto volume, pochi centesimi per milione di token possono trasformarsi in differenze rilevanti su scala annuale. La gestione va portata nel budget, non lasciata alla sperimentazione libera.
Per CISO, legal e compliance, il risparmio non basta. Ogni modello deve essere classificato per dati trattati, luogo di processamento, licenza, auditabilità, esposizione supply chain e possibilità di isolamento. Una scelta economica non governata può diventare un rischio operativo.
Per CTO e responsabili prodotto, l’opportunità è progettare routing dinamico: modelli diversi per task diversi, metriche di qualità e costo, soglie di fallback, logging e controllo umano sulle funzioni critiche.
Per gli imprenditori, infine, la finestra è competitiva. Chi impara a separare carichi, prezzi e rischi può ridurre costi e aumentare velocità. Chi resta in architetture monolitiche rischia di pagare un premio non sempre giustificato dal valore.
Conclusione
DeepSeek non abbatte da solo il muro della Silicon Valley. Lo incrina nel punto più sensibile: il costo dell’uso quotidiano dell’intelligenza artificiale. Il vecchio vantaggio occidentale, fondato su capitale, infrastruttura e modelli chiusi, resta importante ma non basta più a proteggere ogni carico. La nuova frontiera è l’inferenza economica, governabile e fidata.
Per questo il confronto USA-Cina sull’AI non sarà deciso soltanto dai benchmark o dalle GPU. Sarà deciso da una combinazione di prezzo, architettura, regole, fiducia e capacità delle imprese di scegliere in modo granulare. Il potere non sta più solo nel modello più potente: sta nel modello che può essere usato, ripetuto, controllato e pagato su scala.
Nota sulle fonti
Il testo è costruito su prezzi ufficiali DeepSeek, OpenAI e Anthropic consultati il 30 maggio 2026, scheda modello DeepSeek V4, proxy OpenRouter, documenti di policy sui controlli all’export e fonti di compliance/privacy. I segnali al 31 dicembre 2026 sono scenari qualitativi e non probabilità, previsioni certe o indicazioni finanziarie.



Commenti