KI-Sicherheitsforschung automatisieren: Wenn Modelle ihre eigene Ausrichtung prüfen
Die Idee, Alignment-Forschung mithilfe von KI-Systemen zu beschleunigen, gewinnt in Fachkreisen zunehmend an Gewicht. Das Prinzip ist einfach formuliert, aber schwer umzusetzen: Statt dass Menschen mühsam prüfen, ob ein Modell die gewünschten Werte und Verhaltensweisen korrekt verinnerlicht hat, sollen KI-Systeme dabei helfen, eben diese Prüfprozesse selbst zu übernehmen oder zumindest zu unterstützen.