TPU 8t e TPU 8i: l'ottava generazione si sdoppia e Google smette di fare un chip solo per tutto

Al developer keynote di I/O 2026 Google ha richiamato i suoi nuovi TPU di ottava generazione: due chip distinti, uno per il training di modelli frontier (8t) e uno per l'inferenza degli agenti (8i). È la prima volta che l'azienda separa i due workload.

Al developer keynote di Google I/O 2026, dentro il discorso sull'infrastruttura che regge l'era agentica, Google ha richiamato la novità annunciata a Cloud Next pochi giorni prima: l'ottava generazione di TPU non è un chip solo, sono due. Un cambio di rotta rispetto a tutta la storia precedente dei Tensor Processing Unit.

TPU 8t: il chip per addestrare modelli frontier

TPU 8t è costruito per accorciare il ciclo di sviluppo dei modelli frontier da mesi a settimane. Bilancia throughput di calcolo, memoria condivisa e banda fra chip per spingere al massimo l'efficienza energetica. Un singolo pod arriva a 9.600 chip, 121 FP4 ExaFlops e un "goodput" dichiarato del 97 percento, con quasi tre volte la potenza di calcolo per pod rispetto a Ironwood (la generazione precedente). È la macchina su cui Google addestrera' Gemini 3.5 Pro e i modelli che verranno dopo.

TPU 8i: il chip per servire gli agenti

TPU 8i è un'altra cosa: è pensato per l'inferenza, e in particolare per il tipo di inferenza che richiede agenti che ragionano per molti passi, usano strumenti, mantengono stato. Porta 288 GB di memoria ad alta banda affiancati a 384 MB di SRAM on-chip, il triplo della generazione precedente, così che il working set di un modello di reasoning rimanga sul silicio invece di entrare e uscire dalla memoria. Google dichiara l'80 percento di performance per dollaro in più rispetto a Ironwood: in pratica, quasi il doppio del volume servito a parita' di spesa.

Perché conta per chi sviluppa

La scelta architetturale dice qualcosa di esplicito. Google ha smesso di pensare "un chip per tutto" e ha riconosciuto che addestrare un modello e servire un agente sono due problemi diversi: l'addestramento è un esercizio di banda e potenza grezza, l'inferenza agentica è un esercizio di memoria e latenza. Per chi costruisce sopra la Gemini API o sopra Antigravity, l'effetto è che gli agenti dovrebbero diventare più economici e più veloci nel corso dell'anno. Per Google, è la stessa logica con cui Apple ha separato CPU e Neural Engine: specializzare il silicio quando il workload si stabilizza.

← Torna a tutti gli annunci