Cloud Run per agenti: server MCP in GA, GPU Blackwell e sandbox effimeri

Google riposiziona Cloud Run come piattaforma di runtime per agenti AI. Server MCP gestiti in GA, supporto NVIDIA RTX PRO 6000 Blackwell per modelli oltre i 70 miliardi di parametri, sandbox effimeri integrati: il messaggio è che la production-grade infrastructure per agenti deve scalare a zero, non gonfiare la bolletta.

La mossa: Cloud Run come runtime per agenti

A I/O 2026 Google ha riposizionato Cloud Run da servizio container serverless generico a runtime di prima classe per agenti AI. La novità non è un singolo annuncio ma una serie coordinata che ridefinisce la value proposition del servizio.

Server MCP gestiti in General Availability

Il primo pezzo: Cloud Run ora ospita server Model Context Protocol gestiti in GA. Per chi non segue il protocollo, MCP è lo standard aperto — proposto inizialmente da Anthropic, adottato di fatto da OpenAI, Google e altri — che permette a un agente di scoprire e chiamare strumenti esterni in modo uniforme.

In GA significa due cose pratiche: pricing chiaro e SLA contrattuale. Sviluppatori e agenti possono fare deploy di un server MCP con un comando, esporlo come endpoint scalabile e usarlo come fonte di tool dentro Antigravity, ADK, Agent Platform o qualunque client compliant.

NVIDIA RTX PRO 6000 Blackwell, scale-to-zero incluso

Il secondo pezzo è infrastrutturale: Cloud Run aggiunge in GA il supporto alle GPU NVIDIA RTX PRO 6000 Blackwell. Tradotto: si possono servire modelli da 70 miliardi di parametri e oltre senza gestire VM, senza orchestrazione manuale, e — questo è il punto — con scaling a zero quando non c'è traffico.

È il pezzo che fa la differenza per chi self-hosta open weights — Gemma 4, Llama, modelli specializzati — invece di pagare per API. Finora self-hosting di modelli grandi voleva dire bolletta GPU che gira anche quando nessuno chiama. Lo scale-to-zero su Blackwell cambia l'economia.

Sandbox effimeri integrati

Il terzo pezzo è di sicurezza. Cloud Run integra un tool di sandbox effimero che permette a un agente di spawnare un ambiente di esecuzione isolato dal proprio codice. L'agente riceve un Linux box pulito, esegue lo step rischioso — un comando shell, un eval di codice non fidato, un browse — e il sandbox viene buttato a fine task.

Il pattern è lo stesso che usa Antigravity dietro le quinte e che Google ora espone come primitiva infrastrutturale riusabile. È la risposta corretta a una classe di problemi reali: gli agenti che eseguono codice arbitrario hanno una superficie d'attacco enorme, e mettere ogni esecuzione in un container effimero è la pratica giusta.

Cosa significa per chi costruisce

Messi insieme — MCP gestito, GPU Blackwell scale-to-zero, sandbox integrati — i tre pezzi disegnano una piattaforma agent-native. Non bisogna più mettere insieme da soli orchestrazione GPU, hosting MCP e sandboxing: è tutto su Cloud Run con un modello di costo coerente.

Il trade-off è quello di sempre: meno friction di integrazione, più dipendenza da Google Cloud. Per startup che devono andare veloci in production, il vantaggio supera il costo di lock-in. Per chi sta costruendo qualcosa che dovrà restare neutrale rispetto al cloud, il warning resta valido.

← Torna a tutti gli annunci