DeepMind stellt verteiltes Trainingsverfahren für Large Language Models vor

Hmm, that ID is in the banned list. Let me choose a different one.

Google DeepMind hat mit Decoupled DiLoCo ein Trainingsverfahren vorgestellt, das Large Language Models geografisch verteilt und ausfallresistent trainierbar macht – ohne die Qualität des Modells zu beeinträchtigen. Für Unternehmen mit verteilter Cloud-Infrastruktur oder strengen Datenschutzanforderungen könnte das ein entscheidender Fortschritt sein.

DeepMind stellt verteiltes Trainingsverfahren für Large Language Models vor

Google DeepMind hat ein neues Verfahren namens „Decoupled DiLoCo” veröffentlicht, das das Training großer KI-Modelle über geografisch verteilte Rechenzentren hinweg effizienter und widerstandsfähiger gegen Ausfälle machen soll. Die Methode baut auf dem bestehenden DiLoCo-Ansatz auf und adressiert einen der zentralen Engpässe beim Skalieren von KI-Infrastruktur: die Abhängigkeit von schnellen, durchgehend stabilen Netzwerkverbindungen zwischen Rechenknoten.

Das Problem mit heutigen Trainingsarchitekturen

Konventionelles verteiltes Training setzt voraus, dass alle beteiligten GPUs oder TPUs über Hochgeschwindigkeitsverbindungen miteinander kommunizieren können. Fällt ein Knoten aus oder degradiert die Netzwerkverbindung, kommt das gesamte Training zum Stillstand.

Diese Architektur macht es schwierig, Rechenkapazitäten aus verschiedenen Rechenzentren oder Regionen zu bündeln – ein erheblicher wirtschaftlicher und logistischer Nachteil beim Aufbau großskaliger Trainingsinfrastruktur.

Wie Decoupled DiLoCo funktioniert

Der Ansatz entkoppelt die lokale Rechenarbeit von der globalen Synchronisation zwischen den Trainingsknoten. Jeder Teilnehmer trainiert zunächst eigenständig über mehrere lokale Schritte, bevor Gradienteninformationen aggregiert werden. Durch diese zeitliche Entkopplung sinkt die Frequenz, mit der Knoten miteinander kommunizieren müssen, erheblich.

Die Methode toleriert dabei auch den vollständigen Ausfall einzelner Knoten, ohne dass das Gesamttraining abgebrochen werden muss – das System setzt sich mit den verbleibenden Ressourcen fort.

DeepMind beschreibt, dass das Verfahren trotz reduzierter Kommunikation keine wesentlichen Qualitätseinbußen beim trainierten Modell produziert.

Die Entkopplung erlaubt es zudem, heterogene Hardware und unterschiedliche Netzwerktopologien zu kombinieren, was bislang praktisch kaum umsetzbar war.

Praktische Konsequenzen für die Trainingsinfrastruktur

Für Unternehmen und Forschungseinrichtungen, die eigene Large Language Models trainieren, hat dieser Ansatz mehrere konkrete Implikationen:

Günstigere Weitverkehrsverbindungen: Die Anforderungen an Bandbreite und Latenz zwischen Rechenzentren sinken erheblich.
Spot- und Preemptible-Computing: Günstige, unterbrechbare Rechenkapazität wird praktikabler, da Knotenausfälle abgefedert werden.
Datenschutzkonforme Geografie: Regulatorisch getrennte Datenbereiche in verschiedenen Regionen lassen sich halten – bei gleichzeitigem Training eines gemeinsamen Modells.

Einordnung in den Forschungskontext

DiLoCo als Grundlage wurde bereits 2023 von DeepMind vorgestellt und zeigte erste Ergebnisse bei der Reduzierung von Kommunikationsaufwand. Die nun vorgestellte Erweiterung ist als nächste Entwicklungsstufe zu verstehen, die vor allem auf Produktionsstabilität und Skalierbarkeit abzielt.

Ähnliche Ansätze verfolgen auch andere Labore im Bereich Federated Learning – meist jedoch mit Schwerpunkt auf Datenschutz statt Infrastrukturresilienz.

Für deutsche Unternehmen, die eigene KI-Trainingsvorhaben planen oder bereits betreiben, ist Decoupled DiLoCo vor allem in zwei Szenarien relevant: bei der Nutzung verteilter Cloud-Infrastruktur über mehrere Regionen oder Anbieter hinweg sowie bei der Einhaltung von Datenschutzanforderungen, die eine physische Trennung von Datenbeständen verlangen.

Ob und wann DeepMind das Verfahren als Open-Source-Implementierung oder über Google Cloud zugänglich macht, bleibt abzuwarten – die Veröffentlichung der Forschungsergebnisse dürfte jedoch andere Anbieter und die Open-Source-Community zur Adaption anregen.

Quelle: Google DeepMind – Decoupled DiLoCo