Googles TPU-Architektur: Wie spezialisierte KI-Chips Cloud-Workloads skalieren

Google macht seine Tensor Processing Units einem breiteren Publikum zugänglich – mit einer neuen Erklärvideo-Serie, die zeigt, warum spezialisierte KI-Chips die Cloud-Infrastruktur von morgen definieren könnten.

Googles TPU-Architektur: Wie spezialisierte KI-Chips Cloud-Workloads skalieren

Was TPUs von herkömmlicher Hardware unterscheidet

Tensor Processing Units (TPUs) sind anwendungsspezifische integrierte Schaltkreise (ASICs), die Google ursprünglich für den internen Einsatz entwickelt hat – zur Beschleunigung von Machine-Learning-Berechnungen, insbesondere der Matrixmultiplikationen, die beim Training und der Inferenz von Large Language Models anfallen. Im Gegensatz zu General-Purpose-GPUs sind TPUs auf genau diese Rechenoperationen optimiert, was bei bestimmten Workloads zu deutlich höherem Durchsatz bei geringerem Energieverbrauch führt.

Die aktuelle Generation, TPU v5p und TPU v5e, ist über die Google Cloud Platform als Cloud TPU für externe Kunden verfügbar. Damit adressiert Google einen Markt, in dem Unternehmen zunehmend nach kosteneffizienten Alternativen zu Nvidia-GPUs suchen, deren Verfügbarkeit und Preisgestaltung in den vergangenen Jahren erhebliche Planungsprobleme verursacht haben.

Architektur und Skalierung im Verbund

Ein wesentliches Merkmal der TPU-Architektur ist die Fähigkeit zur eng gekoppelten Vernetzung mehrerer Chips zu sogenannten Pods. In diesen Konfigurationen können Tausende von TPU-Chips über hochbandbreitige Interconnects zusammengeschaltet werden.

Das Training sehr großer Modelle mit mehreren hundert Milliarden Parametern wird durch TPU-Pod-Architekturen erst wirtschaftlich praktikabel.

Google setzt TPUs intern für nahezu alle eigenen KI-Produkte ein, darunter Gemini, Search-Funktionen und Google Translate. Diese produktive Nutzung im eigenen Haus dient dem Unternehmen als Argument für die Reife und Stabilität der Technologie gegenüber externen Kunden.

Positionierung im Cloud-Wettbewerb

Mit dem erklärenden Videomaterial reagiert Google auf einen konkreten Kommunikationsbedarf: Viele Unternehmen, die KI-Workloads in die Cloud verlagern wollen, sind mit GPU-basierter Infrastruktur vertraut, kennen aber die Stärken und Einschränkungen von TPUs weniger gut.

TPUs arbeiten besonders effizient mit JAX und TensorFlow – PyTorch-basierte Workflows können zusätzliche Anpassungen erfordern.

Der Schritt, die Erklärvideos öffentlich zu publizieren, fällt in eine Phase intensivierten Wettbewerbs: Amazon Web Services setzt auf eigene Trainium- und Inferentia-Chips, Microsoft investiert in seine Azure-Infrastruktur mit Nvidia-Hardware, und Startups wie Cerebras oder Groq positionieren sich ebenfalls im Markt für spezialisierte KI-Beschleuniger.

Einordnung für deutsche Unternehmen

Für Unternehmen in Deutschland, die KI-Infrastruktur evaluieren, sind TPUs vor allem dann relevant, wenn:

Große Trainingsläufe oder skalierte Inferenz-Workloads geplant sind
Das technische Team Bereitschaft mitbringt, sich auf Googles bevorzugte Frameworks einzulassen
Die Hardware-Beschaffung vermieden werden soll – angesichts langer Lieferzeiten für spezialisierte KI-Hardware ein zunehmend gewichtiger Faktor

Entscheider sollten Framework-Kompatibilität und Total Cost of Ownership sorgfältig gegen GPU-basierte Alternativen abwägen, bevor sie strategische Infrastrukturentscheidungen treffen.

Quelle: Google AI Blog