Indiens Gig-Worker versorgen globale Robotik-KI mit Daten

(Symbolbild)

Indiens Gig-Worker werden zum Rohstofflieferanten für globale Robotik-KI

Ein YC-Startup nutzt Indiens riesigen Dienstleistungssektor, um Trainingsdaten für Physical AI zu generieren – und schafft damit eine neue globale Arbeitsteilung, bei der menschliche Handarbeit in Entwicklungsländern die Grundlage für die Automatisierung in Industrienationen bildet.

Die Datenlücke der Physical AI

Large Language Models haben sich durch Milliarden annotierter Texte trainieren lassen. Bei Robotik-KI, also Physical AI, fehlt das vergleichbare Datenfundament. Roboter müssen lernen, physische Objekte zu greifen, Werkzeuge zu führen oder Haushaltsaufgaben auszuführen – Fähigkeiten, die nicht aus Internettexten, sondern nur aus realer menschlicher Interaktion mit der materiellen Welt abgeleitet werden können. Diese Lücke im Trainingsdaten-Ökosystem wird zum strategischen Engpass für Unternehmen, die humanoide Roboter oder Manipulatoren entwickeln.

Human Archive, gegründet von ehemaligen Mitarbeitern von Tesla Optimus und Figure AI, hat diesen Engpass identifiziert und baut nun eine Infrastruktur auf, die menschliche Handlungen systematisch erfasst, annotiert und für KI-Training aufbereitet. Das Unternehmen kooperiert dabei mit bestehenden indischen Service-Startups, die bereits über etablierte Gig-Worker-Netzwerke verfügen – von Haushaltshilfen über Pflegedienste bis zu handwerklichen Dienstleistungen.

Das Geschäftsmodell: Arbeitsteilung auf globaler Ebene

Die Architektur des Modells folgt einer bewährten Logik der Digitalwirtschaft: Arbeitskraft in Ländern mit niedrigen Lohnkosten wird in datenbasierte Güter umgewandelt, die in Ländern mit hohen Lohnkosten zur Kostensenkung eingesetzt werden. Die indischen Gig-Worker führen ihre regulären Dienstleistungen aus, während Wearables und Kameras ihre Bewegungsabläufe, Greifmuster und räumlichen Entscheidungen aufzeichnen. Diese Daten fließen in Foundation Models für Robotik ein, die später dieselben Tätigkeiten in deutschen Fabrihen, japanischen Pflegeheimen oder US-amerikanischen Haushalten automatisieren sollen.

Für die indischen Worker selbst ändert sich zunächst wenig – sie erhalten ihre übliche Vergütung, zusätzlich eine kleine Prämie für die Datennutzung. Die eigentliche Wertschöpfung entsteht erst bei der Veredelung der Rohdaten zu Trainingsdatensätzen und dem anschließenden Verkauf an Robotik-Unternehmen. Human Archive hat bereits Partnerschaften mit mehreren Physical-AI-Startups geschlossen und wird von Wing VC sowie weiteren Investoren unterstützt.

Strategische Implikationen für den Wettbewerb

Das Modell birgt erhebliche Skaleneffekte. Wer zuerst über die größte und vielfältigste Datenbank menschlicher Manipulationsfähigkeiten verfügt, kann Foundation Models trainieren, die für Wettbewerber nur schwer replizierbar sind. Datennetzwerkeffekte in der Physical AI könnten ähnlich dominant werden wie bei LLMs, wo OpenAI und Google durch frühe Datenvorsprünge nachhaltige Vorteile etablierten.

Gleichzeitig wirft das Modell regulatorische Fragen auf. Datenschutzrechtlich ist die Einwilligung von Arbeitnehmern zur Erfassung biometrischer Bewegungsdaten ungeklärt. Arbeitsrechtlich entsteht eine neue Kategorie: Worker, die nicht nur Dienstleistungen erbringen, sondern gleichzeitig ihr eigenes berufliches Handeln als Trainingsgrundlage für eigene Substitution trainieren. Langfristig könnten die erfassten Tätigkeiten durch die daraus entwickelten Roboter obsolet werden – ohne dass die ursprünglichen Datenlieferanten an der Wertschöpfung der Automatisierung partizipieren.

Für deutsche Unternehmen in der Robotik und Automatisierung eröffnet sich eine strategische Abhängigkeit. Wer Physical-AI-Modelle entwickeln oder einsetzen möchte, wird auf Trainingsdaten angewiesen sein, die zunehmend von spezialisierten Anbietern wie Human Archive kontrolliert werden. Die Alternative – eigene Datenerfassung in Deutschland mit vergleichsweise hohen Lohnkosten – ist wirtschaftlich kaum konkurrenzfähig. Entscheidend wird daher sein, ob europäische Unternehmen frühzeitig Partnerschaften mit solchen Dateninfrastruktur-Anbietern eingehen oder ob sie den Zugang zu Foundation Models vollständig US-amerikanischen und chinesischen Konkurrenten überlassen. Die globale Arbeitsteilung bei KI-Trainingsdaten ist bereits im Entstehen – die Frage ist nur, wer die Kontrolle über die resultierenden Modelle behält.