PrfaaS: Cross-Datacenter-Architektur soll LLM-Betriebskosten deutlich reduzieren

Warte – diese ID ist verboten. Ich wähle eine neue, unbenutzten ID:

Forscher von Moonshot AI und der Tsinghua-Universität haben mit PrfaaS eine Infrastrukturarchitektur vorgestellt, die den Betrieb großer Sprachmodelle über mehrere Rechenzentren hinweg grundlegend neu organisiert – mit dem Ziel, die hohen und schwer kalkulierbaren Kosten bei LLM-Inferenz im Unternehmensmaßstab spürbar zu senken.

PrfaaS: Cross-Datacenter-Architektur soll LLM-Betriebskosten deutlich reduzieren

Das Problem: KV-Cache als Kostentreiber

Bei der Inferenz mit Large Language Models entsteht für jede Anfrage ein sogenannter Key-Value-Cache (KV-Cache), der Zwischenergebnisse der Berechnung speichert und aufwendige Wiederholungen vermeidet. In bestehenden Architekturen wird dieser Cache in der Regel lokal auf der GPU oder im Arbeitsspeicher eines einzelnen Servers gehalten – mit zwei gravierenden Konsequenzen:

GPU-Ressourcen werden durch Cache-Daten gebunden, die eigentlich für Rechenoperationen benötigt würden.
Verteilte Systeme über mehrere Standorte hinweg können den Cache kaum effizient teilen.

Je größer die Modelle und je höher das Anfragevolumen, desto stärker wirkt sich diese Ineffizienz auf die Betriebskosten aus – ein Problem, das insbesondere für Unternehmen relevant ist, die LLM-Dienste intern oder über Cloud-Anbieter in großem Umfang betreiben.

PrfaaS: Prefill as a Service über Rechenzentren hinweg

PrfaaS steht für „Prefill as a Service” und lagert die Prefill-Phase der LLM-Inferenz – also die rechenintensive erste Verarbeitung eines Eingabetextes – gezielt in spezialisierte Knoten aus, die über Rechenzentren verteilt sein können. Der resultierende KV-Cache wird anschließend netzwerkübergreifend für nachgelagerte Decode-Knoten verfügbar gemacht, anstatt lokal zu verbleiben.

Kernstück der Architektur ist ein Scheduling-Mechanismus, der Prefill- und Decode-Aufgaben entkoppelt und je nach Auslastung dynamisch auf unterschiedliche Rechenressourcen verteilt. Die Trennung dieser beiden Phasen ermöglicht eine gezieltere GPU-Nutzung:

Prefill-Knoten lassen sich auf hohe Parallelität optimieren.
Decode-Knoten werden gezielt für sequenzielle Token-Generierung ausgelegt.

Gemessene Effizienzgewinne

Laut den Forschern zeigt PrfaaS in Benchmarks messbare Verbesserungen gegenüber monolithischen Inferenz-Setups:

Deutliche Reduktion der Time-to-First-Token (TTFT)
Verbesserte GPU-Auslastung im Gesamtsystem
Bessere Abfederung von Spitzenlastsituationen ohne zusätzliche Hardware

Die Architektur ist mit gängigen Transformer-basierten Modellen kompatibel und erfordert keine grundlegenden Änderungen an Modellgewichten oder Trainingsverfahren.

Konkrete Zahlen zur Kostenreduktion werden in der Veröffentlichung in Abhängigkeit von Modellgröße und Anfrageprofil angegeben – die Varianz ist entsprechend groß, die Tendenz jedoch konsistent positiv.

Einordnung für deutsche Unternehmen

Für Unternehmen in Deutschland und der DACH-Region, die eigene LLM-Infrastruktur betreiben oder den Aufbau planen, ist PrfaaS aus mehreren Gründen relevant:

Der Druck, Inferenzkosten zu senken, wächst mit jeder Produktivbereitstellung von KI-Anwendungen.
Eine standortübergreifende KV-Cache-Verwaltung eröffnet Möglichkeiten für hybride Setups – etwa die Kombination aus On-Premises-Ressourcen und Cloud-Kapazitäten europäischer Anbieter.
Die konzeptionelle Richtung weist darauf hin, dass sich Infrastrukturanbieter und interne IT-Teams künftig stärker mit der Disaggregation von Inferenz-Workloads befassen werden.

Bis zur produktionsreifen Implementierung dürfte es noch einige Zeit dauern – die strategische Relevanz des Ansatzes ist für Infrastrukturverantwortliche jedoch bereits heute einzuschätzen.

Quelle: MarkTechPost