Google stellt zwei spezialisierte TPUs der achten Generation vor

Mit der achten TPU-Generation vollzieht Google einen strategischen Kurswechsel: Statt eines Universalchips für alle Aufgaben setzt das Unternehmen erstmals auf zwei spezialisierte Varianten – eine für das Training, eine für den produktiven Betrieb. Der Treiber dahinter ist die wachsende Bedeutung von KI-Agenten in der Unternehmensinfrastruktur.

Google bringt zwei spezialisierte TPUs der achten Generation auf den Markt

Google hat auf der Cloud Next ’26 zwei neue Tensor Processing Units (TPUs) vorgestellt, die speziell für den Einsatz in agentenbasierten KI-Systemen ausgelegt sind. Mit der achten TPU-Generation reagiert das Unternehmen auf veränderte Anforderungen im KI-Betrieb, bei dem autonome Agenten zunehmend komplexe, mehrstufige Aufgaben übernehmen.


Zwei Chips, zwei Einsatzprofile

Die neue Generation umfasst zwei separate Varianten: den TPU v8t und den TPU v8i. Beide Chips sind nicht als Universallösungen konzipiert, sondern jeweils auf spezifische Workloads hin optimiert:

  • TPU v8t – ausgerichtet auf das Training großer Modelle
  • TPU v8i – optimiert für Inferenz, also den produktiven Betrieb bereits trainierter Modelle

Diese Spezialisierung markiert eine deutliche Abkehr vom bisherigen Ansatz, bei dem eine TPU-Generation beide Aufgaben gleichermaßen erfüllen sollte.

Während das Training großer Modelle erhebliche Rechenleistung erfordert, entfällt im laufenden Betrieb der weitaus größere Anteil der Kosten und des Energieverbrauchs auf die Inferenz – insbesondere wenn KI-Agenten dauerhaft und in hoher Frequenz auf Modelle zugreifen.


Ausrichtung auf die Agenten-Ära

Google positioniert beide Chips explizit für den Einsatz in sogenannten Agentic-AI-Szenarien – Architekturen, bei denen KI-Systeme eigenständig Aufgaben planen, Werkzeuge aufrufen und Entscheidungen über mehrere Schritte hinweg treffen. Solche Systeme stellen andere Anforderungen an die Infrastruktur als klassische, einzelne Modellabfragen:

  • Längere Kontextfenster
  • Häufigere Modellaufrufe
  • Komplexere Datenflüsse

Die v8-Generation soll diesen Anforderungen durch optimierte Speicherbandbreite und verbesserte Latenzwerte gerecht werden. Technische Detailspezifikationen hat Google bislang nur in Teilen veröffentlicht; vollständige Benchmarks sollen im Rahmen der allgemeinen Verfügbarkeit folgen.


Verfügbarkeit über Google Cloud

Beide TPU-Varianten werden als Cloud-Dienst über Google Cloud bereitgestellt. Unternehmen können die Chips über die gewohnte Cloud-Infrastruktur nutzen, ohne eigene Hardware anschaffen zu müssen.

Google Cloud konkurriert damit direkt mit den Chip-Angeboten von AWS (Trainium, Inferentia) und Microsoft Azure – alle großen Hyperscaler setzen zunehmend auf eigenentwickelte KI-Prozessoren, um sich von Nvidia-GPUs unabhängiger zu machen.


Einordnung für deutsche Unternehmen

Für Unternehmen in der DACH-Region, die KI-Agenten in ihre Geschäftsprozesse integrieren oder pilotieren, ist die Ankündigung in erster Linie als Infrastrukturnachricht relevant. Konkret bedeutet das:

  • Die Spezialisierung auf Inferenz-Workloads könnte die Betriebskosten für dauerhaft aktive KI-Systeme spürbar senken
  • Wer Google Cloud bereits nutzt oder evaluiert, sollte die TPU-v8i-Option in Kosten-Nutzen-Analysen einbeziehen, sobald offizielle Preismodelle vorliegen
  • Die Marktentwicklung zeigt: Alle großen Hyperscaler verfolgen eigene KI-Chip-Strategien – das verringert langfristig die Abhängigkeit von einzelnen Anbietern, erhöht aber auch die Komplexität bei der Infrastrukturauswahl

Quelle: Google AI Blog

Scroll to Top