Google stellt zwei neue TPU-Generationen für KI-Inferenz und Training vor

Google bricht mit der bisherigen TPU-Philosophie und präsentiert auf der Cloud Next-Konferenz erstmals zwei spezialisierte Chips: einen für Inferenz, einen für Training. Die Entscheidung ist ein klares Signal an Nvidia – und an Unternehmen, die KI-Workloads skalieren wollen.

Google stellt zwei neue TPU-Generationen für KI-Inferenz und Training vor

Google hat auf seiner Cloud Next-Konferenz zwei neue Tensor Processing Units (TPUs) vorgestellt, die speziell auf die Anforderungen moderner KI-Workloads ausgerichtet sind. Anders als bisher setzt Google dabei auf eine Zweiteilung: ein Chip für Inferenz, ein weiterer für das Training von KI-Modellen.

Zwei Chips statt einem

Mit dem Ironwood TPU und einem separaten Trainings-Chip verfolgt Google eine klare Strategie der Spezialisierung. Während bisherige TPU-Generationen als Allround-Beschleuniger konzipiert waren, optimiert Google die neue Generation konsequent für unterschiedliche Aufgabenprofile.

Inferenz-Workloads – also das Ausführen bereits trainierter Modelle im produktiven Betrieb – stellen andere Anforderungen an Speicherbandbreite, Rechenleistung und Energieeffizienz als das rechenintensive Training großer Sprachmodelle.

Google begründet den Ansatz mit dem zunehmenden Einsatz sogenannter Agentic AI: KI-Systeme, die eigenständig mehrstufige Aufgaben durchführen, API-Calls ausführen und mit externen Diensten interagieren.

Solche Anwendungen erzeugen kontinuierliche, latenzempfindliche Inferenz-Last – und stellen damit fundamental andere Anforderungen als klassische Batch-Trainingsjobs.

Positionierung gegenüber Nvidia

Die Ankündigung ist auch als direktes Signal an Nvidia zu verstehen. Google Cloud konkurriert mit dem Grafikkarten-Hersteller um die Budgets von Unternehmen, die KI-Infrastruktur aufbauen oder skalieren wollen. Nvidias H100 und H200 dominieren derzeit den Markt für KI-Beschleuniger – sowohl für Training als auch für Inferenz.

Mit eigenen, vertikal integrierten Chips kann Google seinen Cloud-Kunden eine Alternative bieten, die präzise auf die eigene Infrastruktur und den hauseigenen Software-Stack abgestimmt ist.

Modelle wie Gemini werden intern auf TPUs trainiert – das verschafft Google praktische Erfahrung mit den Chips in einem Maßstab, den kaum ein Wettbewerber replizieren kann.

Für Google selbst sind die TPUs seit Jahren ein zentrales Differenzierungsmerkmal gegenüber AWS und Microsoft Azure.

Inferenz als wirtschaftlicher Hebel

Die Fokussierung auf Inferenz-Optimierung ist aus unternehmerischer Sicht strategisch konsequent: Mit dem breiten Ausrollen von KI-Anwendungen in der Produktion verschiebt sich der wirtschaftliche Schwerpunkt vom einmaligen Modelltraining hin zum dauerhaften Inferenz-Betrieb.

Laut Branchenschätzungen entfällt inzwischen der Großteil der KI-Rechenkosten auf Inferenz – Tendenz steigend.

Ein spezialisierter Chip, der diesen Workload effizienter abwickelt, kann für Cloud-Anbieter und deren Kunden erhebliche Kostenvorteile bedeuten.

Verfügbarkeit und Einbindung in Google Cloud

Google plant, die neuen TPUs über Google Cloud als Cloud-TPU-Instanzen verfügbar zu machen. Konkrete Preise und Verfügbarkeitsdaten hat das Unternehmen noch nicht im Detail kommuniziert. Die Integration in bestehende ML-Frameworks wie JAX und PyTorch soll nahtlos funktionieren – was den Wechsel für bestehende Nutzer vereinfachen soll.

Einschätzung für deutsche Unternehmen

Für Unternehmen, die KI-Anwendungen auf Google Cloud betreiben oder planen, ist die Entwicklung unmittelbar relevant: Spezialisierte Inferenz-Chips können die laufenden Betriebskosten produktiver KI-Systeme spürbar senken.

Wer bereits auf Google Cloud setzt, sollte die Verfügbarkeit der neuen TPU-Instanzen und deren Kostenstruktur im Vergleich zu GPU-basierten Alternativen genau beobachten – insbesondere für latenzempfindliche Anwendungen wie:

Echtzeit-Kundeninteraktion
Automatisierte Geschäftsprozesse
Agentenbasierte KI-Workflows

Quelle: Ars Technica AI