LiteRT-LM: il runtime di Google per Gemma 4 on-device arriva su iOS e browser via WebGPU

Google porta LiteRT-LM fuori da Android con una Swift API per iOS e una JavaScript API accelerata da WebGPU. Il runtime raggiunge 56 token/sec su iPhone 17 Pro e 76 token/sec nel browser — con Multi-Token Prediction che aggiunge un 2,2x di speedup.

LiteRT-LM è il runtime di inferenza di Google AI Edge per i modelli Gemma 4 su dispositivi locali. Già impiegato in Chrome, ChromeOS e Pixel Watch, viene presentato a I/O 2026 come stack disponibile agli sviluppatori — e con due nuove piattaforme: iOS (Swift API) e web (JavaScript API + WebGPU).

I numeri che contano

Running Gemma 4 E2B senza Multi-Token Prediction: - Android (OpenCL GPU): **52 token/sec** in decode, testato su Samsung S26 Ultra - iOS (Metal GPU): **56 token/sec**, testato su iPhone 17 Pro - Web (WebGPU, Chrome): **76 token/sec** su MacBook Pro 2024 con Apple M4 Max

Abilitando Multi-Token Prediction (MTP) — un'architettura di speculative decoding integrata nel pipeline — il throughput sale fino a **2,2x**, secondo i benchmark pubblicati su Samsung S25 Ultra.

Multi-Token Prediction: come funziona

Il collo di bottiglia classico dell'inferenza LLM è la banda di memoria: il processore passa la maggior parte del tempo a spostare parametri dalla VRAM. LiteRT-LM evita questo problema eseguendo sia il modello principale Gemma 4 che il drafter MTP sullo stesso hardware (es. GPU), così il KV cache condiviso rimane in memoria locale. Risultato: niente penalità di sincronizzazione cross-IP, niente trasferimenti ridondanti.

Gestione sessione e agentic capabilities

LiteRT-LM supporta salvataggio e ripristino nativo delle sessioni (KV cache serializzato), funzionale sia alla continuità utente sia alla riduzione del compute: una sessione già avviata non deve ripetere il prefill. Inoltre il runtime supporta: - **Thinking Mode** (Gemma 4): scratchpad di ragionamento interno prima dell'output finale - **Constrained Decoding**: enforcement di JSON schema o grammatica sull'output, utile negli agenti - **Function calling nativo**: il runtime pausa l'esecuzione, restituisce la tool-call strutturata all'app layer e riprende quando riceve il risultato

Footprint contenuto

Gemma 4 E2B (~2,58 GB su disco) gira con un'impronta fisica di soli **607 MB su CPU Apple mobile** grazie al weight caching di XNNPACK. Gli encoder per immagini e audio vengono caricati dinamicamente solo quando servono.

Perché conta per chi sviluppa

Il punto non è solo la velocità: è che LiteRT-LM porta in produzione un pattern completo — inferenza locale + function calling + session continuity + fallback cloud — su tutti i tre ambienti rilevanti (Android, iOS, web) da un'unica libreria. Per chi costruisce agenti che devono funzionare anche offline o con latenza minima, questo abbassa concretamente la barriera di accesso.

Il codice è open source su GitHub. La CLI per desktop e la Google AI Edge Gallery app per mobile sono già disponibili per testarlo.

← Torna a tutti gli annunci