LiteRT-LM è il runtime di inferenza di Google AI Edge per i modelli Gemma 4 su dispositivi locali. Già impiegato in Chrome, ChromeOS e Pixel Watch, viene presentato a I/O 2026 come stack disponibile agli sviluppatori — e con due nuove piattaforme: iOS (Swift API) e web (JavaScript API + WebGPU).
I numeri che contano
Running Gemma 4 E2B senza Multi-Token Prediction: - Android (OpenCL GPU): **52 token/sec** in decode, testato su Samsung S26 Ultra - iOS (Metal GPU): **56 token/sec**, testato su iPhone 17 Pro - Web (WebGPU, Chrome): **76 token/sec** su MacBook Pro 2024 con Apple M4 Max
Abilitando Multi-Token Prediction (MTP) — un'architettura di speculative decoding integrata nel pipeline — il throughput sale fino a **2,2x**, secondo i benchmark pubblicati su Samsung S25 Ultra.
Multi-Token Prediction: come funziona
Il collo di bottiglia classico dell'inferenza LLM è la banda di memoria: il processore passa la maggior parte del tempo a spostare parametri dalla VRAM. LiteRT-LM evita questo problema eseguendo sia il modello principale Gemma 4 che il drafter MTP sullo stesso hardware (es. GPU), così il KV cache condiviso rimane in memoria locale. Risultato: niente penalità di sincronizzazione cross-IP, niente trasferimenti ridondanti.
Gestione sessione e agentic capabilities
LiteRT-LM supporta salvataggio e ripristino nativo delle sessioni (KV cache serializzato), funzionale sia alla continuità utente sia alla riduzione del compute: una sessione già avviata non deve ripetere il prefill. Inoltre il runtime supporta: - **Thinking Mode** (Gemma 4): scratchpad di ragionamento interno prima dell'output finale - **Constrained Decoding**: enforcement di JSON schema o grammatica sull'output, utile negli agenti - **Function calling nativo**: il runtime pausa l'esecuzione, restituisce la tool-call strutturata all'app layer e riprende quando riceve il risultato
Footprint contenuto
Gemma 4 E2B (~2,58 GB su disco) gira con un'impronta fisica di soli **607 MB su CPU Apple mobile** grazie al weight caching di XNNPACK. Gli encoder per immagini e audio vengono caricati dinamicamente solo quando servono.
Perché conta per chi sviluppa
Il punto non è solo la velocità: è che LiteRT-LM porta in produzione un pattern completo — inferenza locale + function calling + session continuity + fallback cloud — su tutti i tre ambienti rilevanti (Android, iOS, web) da un'unica libreria. Per chi costruisce agenti che devono funzionare anche offline o con latenza minima, questo abbassa concretamente la barriera di accesso.
Il codice è open source su GitHub. La CLI per desktop e la Google AI Edge Gallery app per mobile sono già disponibili per testarlo.