La mossa: Cloud Run come runtime per agenti
A I/O 2026 Google ha riposizionato Cloud Run da servizio container serverless generico a runtime di prima classe per agenti AI. La novità non è un singolo annuncio ma una serie coordinata che ridefinisce la value proposition del servizio.
Server MCP gestiti in General Availability
Il primo pezzo: Cloud Run ora ospita server Model Context Protocol gestiti in GA. Per chi non segue il protocollo, MCP è lo standard aperto — proposto inizialmente da Anthropic, adottato di fatto da OpenAI, Google e altri — che permette a un agente di scoprire e chiamare strumenti esterni in modo uniforme.
In GA significa due cose pratiche: pricing chiaro e SLA contrattuale. Sviluppatori e agenti possono fare deploy di un server MCP con un comando, esporlo come endpoint scalabile e usarlo come fonte di tool dentro Antigravity, ADK, Agent Platform o qualunque client compliant.
NVIDIA RTX PRO 6000 Blackwell, scale-to-zero incluso
Il secondo pezzo è infrastrutturale: Cloud Run aggiunge in GA il supporto alle GPU NVIDIA RTX PRO 6000 Blackwell. Tradotto: si possono servire modelli da 70 miliardi di parametri e oltre senza gestire VM, senza orchestrazione manuale, e — questo è il punto — con scaling a zero quando non c'è traffico.
È il pezzo che fa la differenza per chi self-hosta open weights — Gemma 4, Llama, modelli specializzati — invece di pagare per API. Finora self-hosting di modelli grandi voleva dire bolletta GPU che gira anche quando nessuno chiama. Lo scale-to-zero su Blackwell cambia l'economia.
Sandbox effimeri integrati
Il terzo pezzo è di sicurezza. Cloud Run integra un tool di sandbox effimero che permette a un agente di spawnare un ambiente di esecuzione isolato dal proprio codice. L'agente riceve un Linux box pulito, esegue lo step rischioso — un comando shell, un eval di codice non fidato, un browse — e il sandbox viene buttato a fine task.
Il pattern è lo stesso che usa Antigravity dietro le quinte e che Google ora espone come primitiva infrastrutturale riusabile. È la risposta corretta a una classe di problemi reali: gli agenti che eseguono codice arbitrario hanno una superficie d'attacco enorme, e mettere ogni esecuzione in un container effimero è la pratica giusta.
Cosa significa per chi costruisce
Messi insieme — MCP gestito, GPU Blackwell scale-to-zero, sandbox integrati — i tre pezzi disegnano una piattaforma agent-native. Non bisogna più mettere insieme da soli orchestrazione GPU, hosting MCP e sandboxing: è tutto su Cloud Run con un modello di costo coerente.
Il trade-off è quello di sempre: meno friction di integrazione, più dipendenza da Google Cloud. Per startup che devono andare veloci in production, il vantaggio supera il costo di lock-in. Per chi sta costruendo qualcosa che dovrà restare neutrale rispetto al cloud, il warning resta valido.