Physical Intelligence präsentiert mit π0.7 ein Roboter-Foundation-Model, das erlernte Fähigkeiten flexibel neu kombinieren kann – und dabei dieselben strukturellen Schwächen zeigt, die aus der Welt der Sprachmodelle längst bekannt sind.
Physical Intelligence stellt Robotermodell π0.7 vor – Generalisierung mit bekannten Einschränkungen
Das US-Startup Physical Intelligence hat mit π0.7 ein neues Foundation Model für Roboter präsentiert, das im Training erlernte Fähigkeiten flexibel neu kombinieren soll. Das Prinzip ähnelt der Funktionsweise von Large Language Models – einschließlich deren struktureller Schwächen.
Kompositionelle Generalisierung als Entwicklungsziel
Der zentrale Ansatz hinter π0.7 ist, was die Forscher als „kompositionelle Generalisierung” bezeichnen: Das Modell soll in der Lage sein, einzelne erlernte Bewegungsabläufe und Handlungsbausteine situativ neu zu verknüpfen – vergleichbar damit, wie ein Sprachmodell bekannte Konzepte aus Trainingsdaten in neuen Kontexten kombiniert.
Ein Roboter, der Aufgaben A und B separat gelernt hat, kann diese Fähigkeiten unter Umständen zu einer neuen Aufgabe C zusammensetzen – ohne dafür explizit trainiert worden zu sein.
Physical Intelligence, das 2023 gegründet wurde und zu den am höchsten bewerteten Robotik-Startups zählt, versteht diesen Ansatz als Schritt in Richtung generalistischer Robotersysteme, die nicht für jede neue Aufgabe von Grund auf neu trainiert werden müssen.
Stärken und Grenzen des Modells
Die Demos zeigen π0.7 beim Erledigen verschiedener Haushaltsaufgaben – etwa beim Falten von Wäsche oder dem Einräumen von Gegenständen. In diesen Szenarien gelingt die Kombination bereits bekannter Teilaufgaben erkennbar besser als bei früheren Systemgenerationen.
Gleichzeitig dokumentieren die Forscher offen die Einschränkungen. Das Modell zeigt dieselben Schwächen, die aus der LLM-Entwicklung bekannt sind:
- Mangelnde Robustheit gegenüber leichten Veränderungen in der Umgebung
- Gelegentliche Fehler bei scheinbar trivialen Variationen
- Begrenzte Zuverlässigkeit in unbekannten Situationen
Die Generalisierungsfähigkeit bleibt fragil, sobald das Modell auf Konstellationen trifft, die hinreichend weit vom Trainingsdatensatz entfernt liegen.
Physical AI als eigenständiges Forschungsfeld
Das Modell steht exemplarisch für eine breitere Entwicklung im Bereich Physical AI: die Übertragung von Prinzipien des skalierenden Deep Learning auf physische Systeme, die in der realen Welt agieren. Anders als rein digitale Sprachmodelle müssen solche Systeme jedoch mit sensorischen Eingaben, mechanischen Toleranzen und physikalischen Widerständen umgehen – Faktoren, die die Fehlertoleranz erheblich einschränken.
Physical Intelligence setzt auf große, heterogene Datensätze aus verschiedenen Roboterplattformen und Aufgabenbereichen.
Je diverser das Training, desto tragfähiger die erlernten Abstraktionen – so die Grundhypothese. Ob dieser Skalierungsansatz im physischen Bereich ähnlich gut funktioniert wie im Sprachbereich, bleibt eine offene Forschungsfrage.
Einordnung für deutsche Unternehmen
Für Unternehmen in Deutschland, die Robotik im Produktions- oder Logistikumfeld evaluieren, liefert π0.7 ein nüchternes Bild des aktuellen Entwicklungsstands:
- Kurzfristig: Generalistische Modelle nähern sich praxisrelevanten Fähigkeiten an, sind aber noch weit von industriell belastbarer Zuverlässigkeit entfernt. In regulierten oder sicherheitskritischen Umgebungen bleibt der Einsatz spezialisierter Systeme die pragmatischere Wahl.
- Mittelfristig: Der Ansatz wird relevant – insbesondere für Betriebe, die flexible Automatisierung ohne aufwendiges Neuprogrammieren anstreben.
- Strategisch: Der Fortschritt bei Physical Intelligence und vergleichbaren Unternehmen wie Figure oder 1X sollte in technologischen Roadmaps aktiv beobachtet werden.
Quelle: The Decoder – Physical Intelligence zeigt Roboter-Modell mit LLM-typischer Generalisierung