La bomba DeepSeek è esplosa una notte con il modello testuale V3-R1, ha deflagrato il giorno dopo con il multimodale Janus Pro, è stato rinforzato due giorni dopo con il rilascio di un altro modello, Qwen 2.5max di Alibaba. Ormai la tecnologia si muove con le modalità del Bitcoin, che alterna periodi di movimenti relativi a salti improvvisi, più in alto che in basso.
Chi diceva che l’AI made in Usa fosse in una bolla finanziaria, ha goduto della perdita del 18% registrata in Borsa da Nvidia, solo parzialmente rimbalzata il giorno dopo.
Chi discuteva i costi dichiarati da OpenAi per il futuro poi annunciato nello Stargate di Trump (500 B$ in 4 anni), ha goduto della dichiarazione di costi del training di V3, dichiarati in circa 5,5 M$ contro i 100 M$ delle controparti occidentali. A parte le prime ore dopo il lancio, registrarsi a DeepSeek dall’Italia è diventato quasi impossibile, per poi segnalare la richiesta d’informazioni del Garante della Privacy e la successiva cancellazione dell’app dagli store.
Orbene cifre, benchmark e bizmodel sono tutti da verificare. Non solo quelli dei modelli cinesi (forse dichiarati più bassi del reale), ma direi anche di quelli statunitensi (forse dichiarati più alti del reale).
Se la finanza va a strappi, la tecnologia va a esponenziali: positivi quando si apre un filone, negativi una volta che si ha un primo modello funzionante. Chi avvia la ricerca è sempre svantaggiato rispetto all’inseguitore.
Ma cos’è DeepSeek?
High Flyer è un hedge fund cinese che per anni ha usato l’Ai per analisi finanziarie per poi dedicarsi all’Agi, artificial general intelligence. DeepSeek nasce nel 2023 in High Flyer, grazie al quarantenne Liang Wenfeng che 2024 lancia v3 e nel 2025 lancia R1 in varie versioni a gennaio 2025.
High Flyer è accreditato di almeno 10mila GPU Nvidia acquisite prima dell’embargo, ed altri dicono essere molte di più grazie ad acquisizioni illecite per il bando Usa, ma DeepSeek dichiara di aver usato solo 2.000 Gpu (probabilmente 2.048) depotenziate per un tempo limitato e ad un costo di 5,5 M$. Oggi vende l’elaborazione LLM via Api a una frazione dei costi di OpenAi, diciamo tra 1/20 e 1/50 di quei prezzi. Se questo fosse dumping non ci sarebbe da scandalizzarsi.
Com’è possibile? Le ottimizzazioni in gioco sono molte e ne vedremo solo alcune.
La dimensione di ciascun parametro può essere ridotta
Facciamo finta di seguire i conti che girano e partiamo dai parametri. Gli LLM elaborano un elevato numero di parametri, ormai decine o centinaia di miliardi: il parametro è un peso della rete, ovvero un numero che stabilisce la probabilità di correttezza di quella scelta. I parametri hanno quindi un numero, ormai in miliardi di unità, e la precisione di ciascun numero, in byte da 1 a 4. Il costo viene dal prodotto del numero per le dimensioni dei parametri: 100B x 4 byte = 400 unità di costo.
La teoria non ottimizzata dice che i risultati ottimali si raggiungono con tanti parametri in precisione massima, ovvero 100 miliardi a 4 byte (FP32). Ma non è del tutto vero: soluzioni recenti hanno ottenuto ottimi risultati anche con precisioni a 2 o 1 byte. DeepSeek V3 ne una 1 solo, quindi ottiene risultati ottimi ad ¼ del costo degli LLM precedenti.
La Mixture of expert riduce il numero di parametri
Interviene qui l’approccio MoE, mixture of experts. Si tratta di sagomare la rete da usare, quindi scegliere un numero ridotto di parametri, a seconda del tipo di richiesta. Come si fa? S’inserisce una rete di filtro, detta router, che sceglie una parte ridotta della rete, detta “esperto”, in modo da ridurre le complessità computazionali. Quindi se i parametri sono 20B anziché 100B, risparmiamo un fattore 20. E se confrontiamo 100B su 4 byte con 20B su 1 byte, il costo passa da 400 a 20. Diventa così ragionevole (se questi sono i conti reali) che un’operazione da 100 M$ sia costata solo 5M$. Ovviamente questo è un esempio ultrasemplificato.
Va detto che di MoE si parla da tempo: DeepSeek c’è riuscita, apparentemente con gran qualità.
Test time scaling verso l’AGI
Molto si è parlato anche del test time scaling. Lo scaling è una fase di ottimizzazione dei modelli: tradizionalmente questa operazione viene svolta prima del training, eventualmente facendola seguire da una fase post-training. Si tratta di fasi statiche.
Il TTS, invece, è un’azione dinamica, che opera continuamente, portando ad una grande riduzione delle risorse necessarie, con perdita di qualità minima o nulla. Orbene, il TTS è anche definito reasoning, ovvero capacità di ragionare, finora negata agli LLM e necessaria per andare verso l’AGI.
Altre accortezze, che i più maliziosi definiscono trucchetti, sono state usate per migliorare la qualità dell’output nonostante la riduzione delle risorse.
In cauda venenum
Ed ecco quella che per me è una sorpresa. I media hanno chiamato DeepSeek il killer della bolla AI. Le varie iniziative legate agli LLM, a costi e consumi sempre più spaventosi, contengono certamente una quota parte di supervalutazione, dovuta all’inadeguatezza del mercato e dei decisori. L’approccio a forza bruta potenza + dati in aumento esponenziale, che peraltro sembra arrivato al suo massimo risultato, può essere straordinariamente ottimizzato. L’infrastruttura per rivaleggiare con Google ed OpenAI i cinesi non la hanno e c’è l’embargo. Ma attenzione: DeepSeek funziona anche su chip Huawei. Ecco l’infrastruttura!