Google stellt Vantage vor: KI-Protokoll zur Messung von Kreativität und kritischem Denken

Google AI Research hat mit Vantage ein Protokoll vorgestellt, das Large Language Models nutzt, um bislang schwer messbare Kompetenzen wie Kreativität, kritisches Denken und kollaboratives Arbeiten strukturiert zu erfassen – und damit die Grundlagen moderner Talentbewertung neu definieren könnte.

Google stellt Vantage vor: KI-Protokoll zur Messung von Kreativität und kritischem Denken

Klassische Assessment-Verfahren stoßen bei der Messung von Soft Skills seit jeher an ihre Grenzen. Mit Vantage präsentiert Google AI Research nun einen Ansatz, der LLM-basierte Auswertung mit strukturierten Szenarien verbindet – und damit einen blinden Fleck im HR-Bereich adressiert, der Unternehmen weltweit betrifft.

Das Problem mit klassischen Kompetenzbewertungen

Herkömmliche Assessments scheitern regelmäßig daran, qualitative Fähigkeiten wie Kreativität oder kritisches Denken zuverlässig zu messen. Standardisierte Multiple-Choice-Tests greifen hier zu kurz, manuelle Evaluierungen durch Beobachter sind aufwendig, teuer und oft inkonsistent.

Genau hier setzt Vantage an: Das Protokoll kombiniert strukturierte Aufgabenstellungen mit einer LLM-basierten Auswertungsebene, die qualitative Antworten nach definierten Kriterien bewertet.

Wie Vantage technisch funktioniert

Vantage legt Probanden szenariobasierte Aufgaben vor, die auf kollaborative Problemlösung ausgelegt sind. Ein Large Language Model übernimmt dabei nicht nur die Aufgabenpräsentation, sondern auch die Auswertung der Antworten – anhand sogenannter Rubrics, also vordefinierter Bewertungsraster.

Diese Rubrics erfassen mehrere Dimensionen gleichzeitig:

Originalität eines Lösungsansatzes
Qualität der Argumentation
Perspektivenintegration – die Fähigkeit, unterschiedliche Standpunkte einzubeziehen

Ein zentrales Element des Ansatzes ist die Reproduzierbarkeit. Während menschliche Bewerter zwischen verschiedenen Sitzungen oder Beurteilern stark variieren können, liefert das LLM-basierte System unter gleichen Bedingungen konsistente Ergebnisse. Google gibt an, dass die Korrelation zwischen LLM-Bewertungen und menschlichen Expertenurteilen in internen Tests auf einem hohen Niveau liegt – genaue Kennzahlen bleiben jedoch vorerst der wissenschaftlichen Publikation vorbehalten.

Kollaboration als Messobjekt

Besonders bemerkenswert ist Vantages Ansatz zur Erfassung von Kollaborationsfähigkeit. Das Protokoll simuliert Gruppenszenarien, in denen mehrere Teilnehmer – oder auch KI-Agenten als Interaktionspartner – zusammenarbeiten. Analysiert wird dabei:

Wie Probanden auf abweichende Meinungen reagieren
Wie sie Informationen teilen
Ob sie konstruktive Beiträge zur gemeinsamen Lösungsfindung leisten

Dieser Mehrdimensionalitätsanspruch unterscheidet Vantage von bisherigen automatisierten Assessments, die sich meist auf individuelle Aufgaben beschränken.

Grenzen und offene Fragen

Trotz des methodisch ambitionierten Ansatzes bleiben zentrale Fragen offen:

Die Validität eines LLM-basierten Beurteilungssystems hängt stark von der Qualität der verwendeten Rubrics und der zugrundeliegenden Modellversion ab. Kulturelle und sprachliche Nuancen – relevant für internationale Unternehmen mit heterogenen Belegschaften – könnten die Bewertungsergebnisse systematisch verzerren. Hinzu kommen datenschutzrechtliche Fragen, insbesondere im Kontext des europäischen AI Acts, die bei einem Einsatz im HR-Bereich zwingend zu berücksichtigen sind.

Zudem ist Vantage bislang ein Forschungsprotokoll ohne Produktstatus. Google hat keine konkreten Pläne für eine kommerzielle Umsetzung kommuniziert.

Einordnung für deutsche Unternehmen

Für HR-Abteilungen und Personalentscheider in Deutschland ist Vantage zunächst ein Forschungssignal: Die technische Machbarkeit, Kompetenzen jenseits von Faktenwissen automatisiert und skalierbar zu erfassen, rückt näher.

Gerade mittelständische Unternehmen, die unter Fachkräftemangel leiden und Bewerbungsprozesse effizienter gestalten müssen, sollten diese Entwicklung aktiv verfolgen. Gleichzeitig gilt: Rechtliche Anforderungen aus AI Act und BDSG müssen frühzeitig in die Evaluierung solcher Systeme einfließen – bevor entsprechende Tools den Weg in den Markt finden.

Quelle: MarkTechPost