Die begrenzte Transfer-Intelligenz von AI – Logs about tech, science & my journey

Kürzlich bin ich über ein altes Uniprojekt der kombinatorischen Optimierung gestolpert. Darin ging es um die Berechnung der “Peaceable army of N queens”: Gegeben einer Schachbrettgröße DxD, wieviele N Damen von beiden Farben kann man maximal aufstellen, sodass sich die Damen nicht gegenseitig schlagen können (peace). Dieses Problem haben wir damals für kleinere D mit Prolog (Constraint Logic Programming Language) gelöst. Beispielsweise ist N=2 die Lösung für ein 4×4 Schachbrett und N=7 die Lösung für ein 7×7 Schachbrett (siehe Bilder, schwarze Damen in schwarz, weiße Damen in grau, freie Felder in weiß).

Jetzt kommen wir zu AI: Ich wollte gerne ein 3D gerendertes Bild der Lösung des 7×7 Schachbrett haben, gegeben meines 2D Bildes, das die Lösung anzeigt. Weg also klar: Schachbrettgröße und Positionen extrahieren und in ein 3D Bild einbetten. Aber hier wurde es knifflig. Selbst nach vielen Versuchen mit verschiedenen Prompts konnte mir weder ChatGPT noch Claude ein korrekt gerendertes Bild geben, die Figuren waren an falschen Positionen oder das Schachbrett war falsch dargestellt. Die noch besten Versuche sind in den Bildern zu sehen. Übrigens, für das 4×4 Schachbrett hat ChatGPT es nach etlichen Versuchen und meiner schriftlichen Angabe der Positionen (A2, B4 etc.) hinbekommen, auch wenn er die Farben vertauscht hat.

Was schließe ich daraus: Obwohl die Tech-Unternehmen immer größere Versprechungen machen, die Ergebnisse teils wirklich sehr beeindruckend sind und sicher viele Felder damit revolutioniert werden erreichen die aktuellen LLMs doch einfach Grenzen, die nicht mit der gegenwärtigen Modellarchitektur überschritten werden können.

Mir ist bewusst, dass es wohlmöglich spezielle LLMs gibt, die das Problem lösen könnten, aber die Idee ist ja dieses sehr spezielle Problem einem allgemeineren Modell zu geben. Letztendlich hat es mir gezeigt, dass doch noch einiges an Transfer-Intelligenz fehlt und der Weg zu AGI noch dauert (aber irgendwann schnell gehen kann). Benchmark ist hier die Annahme, dass die meisten Menschen das Problem verstehen und (wenn auch schlecht gezeichnet) lösen könnten 🙂

Edit: Nach etlichen Versuchen konnte ich eine super coole Lösung sogar für D=9 mit Claude Opus 4.6 erstellen! Von Claude sind die Ergebnisse leider nicht fotorealistisch, da keine Stable Diffusion verwendet wird, aber das Ergebnis lässt sich trotzdem sehen:

Ziehen zum Drehen · Scrollen zum Zoomen