Hybrid inference: Chrome porta Gemini Nano on-device in GA, Firebase AI Logic gestisce il fallback al cloud

Local web inference in Chrome passa in disponibilità generale e Firebase AI Logic costruisce il ponte fra modello on-device e cloud, anche su iOS. Il browser smette di essere un cliente passivo della AI.

Una delle dichiarazioni meno appariscenti del Google I/O 2026 è anche una delle più importanti per chi costruisce front-end: l'hybrid inference diventa standard, e il browser smette di essere un cliente passivo della AI.

Local web inference in Chrome in GA

**Local web inference** in Chrome — la capacità per le app web di girare modelli direttamente sul dispositivo dell'utente — passa in disponibilità generale. Sotto al cofano c'è **Gemini Nano**, l'LLM on-device di Google da circa quattro gigabyte che già alimenta funzioni native di Chrome come Help me write, scam detection sui messaggi in arrivo, riassunti pagina e suggerimenti per i gruppi di tab. Adesso la stessa infrastruttura è disponibile per qualsiasi app web tramite la Prompt API.

Firebase AI Logic e il fallback al cloud

Il ponte fra on-device e cloud lo costruisce **Firebase AI Logic**. La libreria espone un'unica API: l'app prova prima l'inferenza locale via Prompt API di Chrome, e se il dispositivo non ce la fa — o il modello richiesto non c'è — passa al provider Gemini lato server. La logica di fallback è gestita dalla libreria, non dallo sviluppatore. **Hybrid inference** arriva anche su iOS, e l'opzione Android adesso supporta Gemma 4.

Cosa cambia per chi sviluppa

La promessa è classica del paradigma edge: latenza bassa, costi azzerati per le query semplici, e dati che non escono dal dispositivo per i casi sensibili. Trip.com viene citato come early adopter — usa l'inferenza built-in per generare riassunti di viaggio personalizzati senza chiamate al server. Vale la pena ricordare il costo nascosto: Gemini Nano pesa quasi quattro gigabyte e Chrome lo scarica in modo silenzioso, una scelta che a maggio 2026 ha già sollevato critiche dal mondo privacy. Il guadagno in autonomia ha un prezzo in spazio disco e in energia computazionale spostata sul client.

L'effetto netto è chiaro: il modello tutto-via-API-server smette di essere l'unico ragionevole.

← Torna a tutti gli annunci