Google DeepMind veröffentlicht Gemini Robotics ER 1.6 – verbessertes räumliches Denken für physische KI-Systeme

Google DeepMind bringt mit Gemini Robotics ER 1.6 eine aktualisierte Version seines Robotik-Sprachmodells auf den Markt – mit deutlich verbessertem räumlichen Denkvermögen und der Fähigkeit, Messinstrumente autonom auszulesen. Ein Update, das besonders für die Industrie weitreichende Konsequenzen haben könnte.

Google DeepMind veröffentlicht Gemini Robotics ER 1.6 – verbessertes räumliches Denken für physische KI-Systeme

Google DeepMind hat mit Gemini Robotics ER 1.6 eine aktualisierte Version seines Robotik-Sprachmodells vorgestellt. Das Modell soll Roboter und autonome Systeme in die Lage versetzen, physische Umgebungen präziser zu verstehen und auf Instrumente sowie Messanzeigen verlässlicher zu reagieren.

Erweitertes räumliches Denkvermögen

Der Kern des Updates liegt im sogenannten Embodied Reasoning – also der Fähigkeit eines Modells, dreidimensionale Zusammenhänge, räumliche Beziehungen und physische Zustände aus visuellen Eingaben abzuleiten. Gemini Robotics ER 1.6 baut auf dem Vorgängermodell auf und verbessert laut DeepMind insbesondere die Genauigkeit bei Aufgaben, die ein Verständnis von Tiefe, Orientierung und Objektanordnung erfordern.

Für industrielle Anwendungen ist das relevant, weil Roboter in Fertigungsumgebungen häufig mit unstrukturierten oder sich ändernden Szenarien konfrontiert werden.

Instrument Reading als neue Kernfähigkeit

Eine der auffälligsten Erweiterungen ist die verbesserte Lesefähigkeit für Messinstrumente – englisch als „Instrument Reading” bezeichnet. Das Modell kann analoge und digitale Anzeigen, Skalen und Zeigerinstrumente interpretieren, wie sie in industriellen Anlagen, Labors oder medizinischen Einrichtungen verbreitet sind.

Diese Fähigkeit ist für den Einsatz in Bereichen relevant, in denen manuelle Ablesevorgänge durch autonome Systeme ersetzt oder ergänzt werden sollen – etwa in der Prozessindustrie oder bei Wartungsrobotern.

Technische Grundlage und Einsatzbereich

Gemini Robotics ER 1.6 ist Teil der Gemini-Modellfamilie und kombiniert multimodale Sprachverarbeitung mit spezifischen Trainingsdaten aus robotischen Anwendungsszenarien. Das Modell ist über die Google-Cloud-Infrastruktur zugänglich und richtet sich an Entwickler sowie Unternehmen, die KI-gestützte Robotiklösungen aufbauen oder bestehende Systeme mit erweiterter Wahrnehmungsfähigkeit ausstatten möchten.

DeepMind betont: Das Modell wurde nicht für einen einzelnen Roboter-Formfaktor entwickelt, sondern soll als generische Grundlage für unterschiedliche physische Systeme dienen.

Einordnung im Marktumfeld

Der Schritt steht im Kontext eines breiteren Wettbewerbs um sogenannte Foundation Models für Robotik. Neben Google DeepMind arbeiten auch Figure AI, Physical Intelligence und Boston Dynamics mit KI-Partnern an Systemen, die allgemeines Sprachverständnis mit motorischen Fähigkeiten verbinden.

Die Frage, ob ein einziges Basismodell die Vielfalt industrieller Einsatzszenarien abdecken kann, ist in der Branche noch nicht abschließend beantwortet.

Relevanz für deutsche Unternehmen

Für Unternehmen im deutschen Maschinen- und Anlagenbau sowie in der Prozessindustrie ist Gemini Robotics ER 1.6 ein Indikator dafür, wohin sich die Integration von Large Language Models in Steuerungs- und Automatisierungssysteme entwickelt.

Konkret bedeutet das: Systeme, die bislang auf strukturierte Eingaben und vordefinierte Sensorschnittstellen angewiesen waren, könnten mittelfristig durch visuell-sprachliche Modelle ergänzt werden, die flexibler auf Umgebungsveränderungen reagieren.

Unternehmen, die Pilotprojekte in der vorausschauenden Wartung oder in der autonomen Qualitätskontrolle planen, sollten die Verfügbarkeit solcher Modelle über Cloud-APIs in ihre technische Bewertung einbeziehen.

Quelle: MarkTechPost