Al developer keynote di Google I/O 2026, dentro il discorso sull'infrastruttura che regge l'era agentica, Google ha richiamato la novità annunciata a Cloud Next pochi giorni prima: l'ottava generazione di TPU non è un chip solo, sono due. Un cambio di rotta rispetto a tutta la storia precedente dei Tensor Processing Unit.
TPU 8t: il chip per addestrare modelli frontier
TPU 8t è costruito per accorciare il ciclo di sviluppo dei modelli frontier da mesi a settimane. Bilancia throughput di calcolo, memoria condivisa e banda fra chip per spingere al massimo l'efficienza energetica. Un singolo pod arriva a 9.600 chip, 121 FP4 ExaFlops e un "goodput" dichiarato del 97 percento, con quasi tre volte la potenza di calcolo per pod rispetto a Ironwood (la generazione precedente). È la macchina su cui Google addestrera' Gemini 3.5 Pro e i modelli che verranno dopo.
TPU 8i: il chip per servire gli agenti
TPU 8i è un'altra cosa: è pensato per l'inferenza, e in particolare per il tipo di inferenza che richiede agenti che ragionano per molti passi, usano strumenti, mantengono stato. Porta 288 GB di memoria ad alta banda affiancati a 384 MB di SRAM on-chip, il triplo della generazione precedente, così che il working set di un modello di reasoning rimanga sul silicio invece di entrare e uscire dalla memoria. Google dichiara l'80 percento di performance per dollaro in più rispetto a Ironwood: in pratica, quasi il doppio del volume servito a parita' di spesa.
Perché conta per chi sviluppa
La scelta architetturale dice qualcosa di esplicito. Google ha smesso di pensare "un chip per tutto" e ha riconosciuto che addestrare un modello e servire un agente sono due problemi diversi: l'addestramento è un esercizio di banda e potenza grezza, l'inferenza agentica è un esercizio di memoria e latenza. Per chi costruisce sopra la Gemini API o sopra Antigravity, l'effetto è che gli agenti dovrebbero diventare più economici e più veloci nel corso dell'anno. Per Google, è la stessa logica con cui Apple ha separato CPU e Neural Engine: specializzare il silicio quando il workload si stabilizza.