Google Cloud hat seine A4X Virtual Machines (VMs) vorgestellt, die auf dem NVIDIA GB200 NVL72 basieren. Die neuen VMs sind speziell für das Training und den Betrieb von sehr großen KI-Workloads konzipiert, insbesondere für solche, die Reasoning-Modelle, große Sprachmodelle (LLMs) mit langen Kontextfenstern und Szenarien erfordern, die massive Parallelität benötigen.
Google hebt in seinem Blogbeitrag hervor, der erste und einzige Cloud-Anbieter zu sein, der VMs anbietet, die sowohl mit B200- als auch mit GB200-GPUs laufen. Die A4X-VMs sind Teil der AI Hypercomputer Supercomputing-Architektur von Google.> Kunden können große Cluster von A4X-VMs mit Rechen-, Speicher- und Netzwerkressourcen als eine Einheit bereitstellen und verwalten, was die Komplexität bei verteilten Workloads reduziert.
Die A4X-VMs sind nativ in Google Cloud-Produkte und -Dienste integriert. Sie bieten eine verbesserte Trainingsleistung und niedrige Latenzzeiten.

Clustering und Leistung
Der NVIDIA GB200 NVL72 besteht aus 72 NVIDIA Blackwell GPUs und 36 Arm©-basierten NVIDIA Grace CPUs, die über die fünfte Generation von NVIDIA NVLink Chip-to-Chip (C2C)-Verbindungen zusammenhängen. Die 72 Blackwell-GPUs funktionieren als eine einzige, vereinheitlichte Recheneinheit mit gemeinsamem Speicher und hoher Bandbreite. Das ermöglicht beispielsweise reaktionsschnelle Antworten für multimodales Reasoning bei gleichzeitigen Inferenzanforderungen. Sie ermöglichen effizientes Checkpointing sowie das Auslagern und Rematerialisieren des Modell- und Optimierungszustands, was für das Training und den Betrieb der größten Modelle erforderlich ist.
Jedes GB200 NVL72-System bietet mehr als ein Exaflop Trainingsleistung. Die A4X-VMs ermöglichen die Bereitstellung von Modellen über Zehntausende von Blackwell-GPUs hinweg, indem sie die neuesten Sharding- und Pipelining-Strategien zur Maximierung der GPU-Auslastung nutzen. Im Vergleich zu den A3-VMs, die von NVIDIA H100-GPUs angetrieben werden, bieten die A4X-VMs eine vierfache Steigerung der LLM-Trainingsleistung.
Das Jupiter-Netzwerk von Google ermöglicht die Kombination von NVL72-Domänen. Das High-Performance-Networking von Google Cloud, das auf RDMA over Converged Ethernet (RoCE) basiert, kombiniert NVL72-Racks zu einzelnen, rail-aligned und non-blocking Clustern.
Ihr Wartungsspezialist im DataCenter
Durch Jahrzehnte lange Erfahrung wissen wir worauf es in Ihrem Data Center ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.
Die A4X-VMs sind mit dem Titanium ML-Netzwerkadapter ausgestattet, der auf NVIDIA ConnectX-7-Netzwerkschnittstellenkarten (NICs) basiert. Dieser Adapter liefert 28,8 Tbit/s (72 * 400 Gbit/s) nicht blockierenden GPU-zu-GPU-Traffic mit RoCE.
Die A4X-Architektur mit ihrer 72-GPU NVLink-Domäne ist speziell für Inferenz mit niedriger Latenz ausgelegt, insbesondere für Reasoning-Modelle, die Chain-of-Thought-Techniken verwenden. Die gemeinsame Nutzung von Speicher und Workload über alle 72 GPUs hinweg (einschließlich des KVCache für Long-Context-Modelle) sorgt für niedrige Latenzzeiten, während die große NVLink-Domäne eine bessere Batch-Size-Skalierung und niedrigere Gesamtbetriebskosten ermöglicht, sodass mehr gleichzeitige Benutzeranfragen bedient werden können.
Die A4X-VMs werden durch eine neue Generation von Flüssigkeitskühlung auf Temperatur gehalten. Details zur Kühltechnologie nennt Google allerdings nicht. Google weist lediglich darauf hin, dass die Weiterentwicklung auf jahrelanger Betriebserfahrung basiere.
Ihr Wartungsspezialist für alle großen Hardware Hersteller
Durch Jahrzehnte lange Erfahrung wissen wir worauf es bei der Wartung Ihrer Data Center Hardware ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.
Weitere Artikel
KI-Agenten: Teure Modelle verhandeln besser. Vergrößert sich dadurch soziale Ungleichheit?
Ein aktuelles Experiment mit verhandelnden KI-Agenten sollte Grund zur Sorge sein: Vergrößert sich zukünftig die soziale Ungleichheit durch unterschiedlichen Zugang
Bessere KI = bessere Deals? Was ist Faithfulness Gap, GPT-55 und die neue OpenAI-Microsoft-Ära
️ Über diese Episode KI-Agenten verhandeln mit echtem Geld, OpenAI verliert an Boden gegen Anthropic und eine neue
OpenAI veröffentlicht Prinzipien: Rechtfertigung für massiven Ausbau der Rechenzentren und Forderung nach neuen Wirtschaftsmodellen
OpenAI hat eine Liste von fünf Prinzipien für den Aufbau und die Nutzung von KI veröffentlicht. Was dabei besonders auffällig
Zum Inhalt springen



