Mentre la copertina del keynote se la prende Gemini 3.5 Flash, sotto il radar Google annuncia Gemma 4: la quarta generazione della famiglia di modelli open-weight pensati per girare on-device o auto-ospitati, alternativa diretta al cloud proprietario.
Le taglie
La nuova famiglia arriva in quattro dimensioni: E2B, E4B, 31B e 26B A4B. Le sigle servono a coprire scenari diversi: dalle inferenze su laptop e telefoni (E2B, E4B) fino al self-hosting in cloud privato o GPU server (31B). La variante 27B introduce uno schema di quantizzazione progettato per girare bene a 4-bit su hardware consumer — il che, in pratica, significa modelli più seri eseguiti su una singola GPU desktop.
Cosa cambia rispetto a Gemma 3
I miglioramenti dichiarati sono soprattutto su istruzione e codice: instruction following più accurato, generazione di codice più solida, e una migliore tenuta sui prompt lunghi. Google AI Studio, Hugging Face e Kaggle sono i tre canali ufficiali per scaricarli; la licenza Gemma resta gratuita anche per uso commerciale.
Perché conta
Per chi sta lavorando a soluzioni con vincoli di privacy, sovranità del dato o latenza, la disponibilità di modelli open-weight competitivi non è un dettaglio: è la differenza fra dover passare per un'API commerciale e poter ospitare tutto in casa. Come ha sottolineato il blog Google Developers, Gemma 4 si posiziona esplicitamente come il "compagno aperto" della famiglia Gemini — un modo per coprire entrambi i mercati senza spingere a forza tutti verso il cloud Google. La domanda vera, per chi sceglie quale modello adottare, è se il delta di qualità con i modelli chiusi resta accettabile per il caso d'uso concreto.