Google Cloud stellt A4X VMs auf Basis von NVIDIA GB200 NVL72 vor

Google Cloud hat seine A4X Virtual Machines (VMs) vorgestellt, die auf dem NVIDIA GB200 NVL72 basieren. Die neuen VMs sind speziell für das Training und den Betrieb von sehr großen KI-Workloads konzipiert, insbesondere für solche, die Reasoning-Modelle, große Sprachmodelle (LLMs) mit langen Kontextfenstern und Szenarien erfordern, die massive Parallelität benötigen.

Google hebt in seinem Blogbeitrag hervor, der erste und einzige Cloud-Anbieter zu sein, der VMs anbietet, die sowohl mit B200- als auch mit GB200-GPUs laufen. Die A4X-VMs sind Teil der AI Hypercomputer Supercomputing-Architektur von Google.> Kunden können große Cluster von A4X-VMs mit Rechen-, Speicher- und Netzwerkressourcen als eine Einheit bereitstellen und verwalten, was die Komplexität bei verteilten Workloads reduziert.

Die A4X-VMs sind nativ in Google Cloud-Produkte und -Dienste integriert. Sie bieten eine verbesserte Trainingsleistung und niedrige Latenzzeiten.

Clustering und Leistung

Der NVIDIA GB200 NVL72 besteht aus 72 NVIDIA Blackwell GPUs und 36 Arm©-basierten NVIDIA Grace CPUs, die über die fünfte Generation von NVIDIA NVLink Chip-to-Chip (C2C)-Verbindungen zusammenhängen. Die 72 Blackwell-GPUs funktionieren als eine einzige, vereinheitlichte Recheneinheit mit gemeinsamem Speicher und hoher Bandbreite. Das ermöglicht beispielsweise reaktionsschnelle Antworten für multimodales Reasoning bei gleichzeitigen Inferenzanforderungen. Sie ermöglichen effizientes Checkpointing sowie das Auslagern und Rematerialisieren des Modell- und Optimierungszustands, was für das Training und den Betrieb der größten Modelle erforderlich ist.

Jedes GB200 NVL72-System bietet mehr als ein Exaflop Trainingsleistung. Die A4X-VMs ermöglichen die Bereitstellung von Modellen über Zehntausende von Blackwell-GPUs hinweg, indem sie die neuesten Sharding- und Pipelining-Strategien zur Maximierung der GPU-Auslastung nutzen. Im Vergleich zu den A3-VMs, die von NVIDIA H100-GPUs angetrieben werden, bieten die A4X-VMs eine vierfache Steigerung der LLM-Trainingsleistung.

Das Jupiter-Netzwerk von Google ermöglicht die Kombination von NVL72-Domänen. Das High-Performance-Networking von Google Cloud, das auf RDMA over Converged Ethernet (RoCE) basiert, kombiniert NVL72-Racks zu einzelnen, rail-aligned und non-blocking Clustern.

Erfahren Sie mehr

Ihr Wartungsspezialist im DataCenter

Durch Jahrzehnte lange Erfahrung wissen wir worauf es in Ihrem Data Center ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.

Erfahren Sie mehr

Die A4X-VMs sind mit dem Titanium ML-Netzwerkadapter ausgestattet, der auf NVIDIA ConnectX-7-Netzwerkschnittstellenkarten (NICs) basiert. Dieser Adapter liefert 28,8 Tbit/s (72 * 400 Gbit/s) nicht blockierenden GPU-zu-GPU-Traffic mit RoCE.

Die A4X-Architektur mit ihrer 72-GPU NVLink-Domäne ist speziell für Inferenz mit niedriger Latenz ausgelegt, insbesondere für Reasoning-Modelle, die Chain-of-Thought-Techniken verwenden. Die gemeinsame Nutzung von Speicher und Workload über alle 72 GPUs hinweg (einschließlich des KVCache für Long-Context-Modelle) sorgt für niedrige Latenzzeiten, während die große NVLink-Domäne eine bessere Batch-Size-Skalierung und niedrigere Gesamtbetriebskosten ermöglicht, sodass mehr gleichzeitige Benutzeranfragen bedient werden können.

Die A4X-VMs werden durch eine neue Generation von Flüssigkeitskühlung auf Temperatur gehalten. Details zur Kühltechnologie nennt Google allerdings nicht. Google weist lediglich darauf hin, dass die Weiterentwicklung auf jahrelanger Betriebserfahrung basiere.

Was denkt Hardwarewartung 24?

Am 26. Februar 2025 werden die NVIDIA-Quartalszahlen bekannt gegeben. Dann wird sich zeigen, wie viele B200-GPUs tatsächlich ausgeliefert wurden. Angesichts der vier Probleme während Produktion und Auslieferung wäre es sehr verwunderlich, wenn tatsächlich zehntausende GB200-Systeme bei Google installiert und für Kunden bereitstünden. Hier eine kurze Zusammenfassung dessen, was bei der Blackwell-Produktion in den letzten Monaten alles schiefgelaufen ist:

Design-Fehler: Ein Fehler im Prozessor-Die wurde Anfang August 2024 vom Hersteller TSMC entdeckt, was zu Produktionsverzögerungen führte.
Überhitzungsprobleme: Die Chips überhitzten aufgrund von Problemen mit der Verbindung der Chips, was zu Instabilität führte.
Niedrige Ausbeute: NVIDIA musste „niedrig ausbeutendes Blackwell-Material“ produzieren, um die Nachfrage zu decken, was die Gewinnmargen negativ beeinflusste.
Thermische Ausdehnung: Eine angebliche Diskrepanz im Wärmeausdehnungskoeffizienten zwischen GPU-Chiplets, LSI-Brücken, RDL-Interposer und Motherboard-Substrat führte zu Verwerfungen und Systemausfällen.

Laut einem Pressebericht sollen im Dezember 2024 bereits die ersten Blackwell-GPUs ausgeliefert worden sein, wobei die Produktion vermutlich erst noch hochgefahren wird.

Obwohl Google den GB200-Service bereits angekündigt hat und zu verkaufen scheint, gehen wir davon aus, dass sich die Infrastruktur noch im Aufbau befindet und frühestens im 2. Quartal zur Verfügung stehen wird.

Unvergessen bleibt natürlich das DeepSeek-Debakel, dessen Auswirkungen allerdings frühestens im ersten Quartal 2025 sichtbar werden. Sowohl bei NVIDIA als auch bei Google und Microsoft – den größten Abnehmern – ist nach der ersten Aufstockung der Kapazitäten eine vorsichtigere Planung von Überkapazitäten zu erwarten, was sich deutlich an den CAPEX-Zahlen der Hyperscaler ablesen lassen wird.

Erfahren Sie mehr

Ihr Wartungsspezialist für alle großen Hardware Hersteller

Durch Jahrzehnte lange Erfahrung wissen wir worauf es bei der Wartung Ihrer Data Center Hardware ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.

Erfahren Sie mehr