Menschen lösen es zu 100 %. Die besten KI-Modelle der Welt kommen auf unter 1 %. Was dieser Test wirklich bedeutet.
ARC-AGI-3: Was der neue KI-Test über unsere Werkzeuge verrät
Veröffentlichungsdatum: 31. März 2026
Ein Blick auf den Test
Wer Verantwortung für ein Unternehmen trägt, wird aktuell von KI-Nachrichten überflutet. Fast täglich ein neues Modell, neue Versprechen, neue Rekordzahlen. Umso wertvoller sind die Momente, in denen ein Ergebnis zur Ruhe einlädt – und zum Nachdenken.
Die ARC Prize Foundation hat mit ARC-AGI-3 einen neuen Test veröffentlicht, der KI-Systeme vor völlig unbekannte Aufgaben stellt. Kein Vorwissen hilft. Kein Training greift. Gefragt ist das, was wir im Alltag schlicht Anpassungsvermögen nennen: eine neue Situation erfassen, eine Strategie entwickeln, flexibel reagieren.
Das Ergebnis ist eindeutig. Untrainierte Menschen lösen alle 135 Aufgaben – ohne Anleitung, ohne Vorkenntnisse. Die leistungsfähigsten KI-Modelle der Welt, darunter GPT, Gemini und Claude, kommen auf unter 1 %. Kein Tippfehler.
Ein kurzer Blick auf AGI – und warum er hier relevant ist
ARC-AGI-3 wurde von KI-Forscher François Chollet entwickelt, um eine zentrale Frage zu beantworten: Wie weit sind wir von echter allgemeiner künstlicher Intelligenz – kurz AGI – entfernt?
Artificial General Intelligence (AGI) beschreibt eine KI, die nicht nur auf bekanntem Terrain funktioniert, sondern sich wie ein Mensch an völlig neue Situationen anpassen kann. Sie würde selbstständig denken, lernen und urteilen – unabhängig vom Thema oder Kontext.
Das Ergebnis von ARC-AGI-3 zeigt: Davon sind wir noch weit entfernt. Die Entwickler selbst sagen es offen: Solange diese Lücke besteht, gibt es keine allgemeine KI. Ich habe diesem Thema einen eigenen Beitrag gewidmet – wer tiefer einsteigen möchte, findet ihn hier im Blog.
Für diesen Artikel interessiert mich eine andere Frage: Was bedeutet das konkret für Unternehmen, die heute mit KI arbeiten – oder es vorhaben?
Was das mit Ihren Entscheidungen zu tun hat
Wer in einem Unternehmen über KI-Einsatz entscheidet, steht vor einer zentralen Frage: Worauf kann ich mich verlassen – und worauf nicht?
ARC-AGI-3 gibt darauf eine klare Antwort. KI ist außerordentlich stark, wenn sie auf bekanntem Terrain arbeitet: Texte strukturieren, Informationen zusammenfassen, Routineaufgaben beschleunigen, Muster in Daten erkennen. Hier liefert sie zuverlässig, schnell und mit messbarem Mehrwert.
Sobald jedoch echte Anpassung gefragt ist – neue Situationen, unbekannte Herausforderungen, Entscheidungen ohne klare Datenbasis – ist menschliches Urteilsvermögen unersetzlich. Das ist kein vorübergehender Mangel der aktuellen Modelle. Es ist eine grundlegende Eigenschaft der Technologie, wie sie heute existiert.
Für Führungskräfte bedeutet das: KI entlastet. Aber sie ersetzt kein strategisches Denken – und das ist auch gut so.
KI übernimmt
  • Texte strukturieren
  • Zusammenfassungen
  • Routineaufgaben
  • Mustererkennung
Mensch führt
  • Neue Situationen
  • Strategische Entscheidungen
  • Urteilsvermögen
  • Krisenmanagement
Die häufigste Fehlinvestition im Mittelstand
In meiner Arbeit mit mittelständischen Unternehmen beobachte ich zwei Muster, die beide zu Enttäuschung führen.
Muster 1: Zu zurückhaltend
Teams nutzen ChatGPT oder Copilot für Kleinigkeiten, obwohl das Potenzial für echte Entlastung – in der Dokumentation, im Reporting, in der Kommunikation – weit größer wäre. Die Lizenz läuft, der Nutzen bleibt aus.
Muster 2: Zu viel zugetraut
Führungskräfte erwarten eigenständiges Denken, Initiative, Urteilsvermögen. Wenn das ausbleibt, entsteht Skepsis – und der Einsatz schläft wieder ein. Investitionen verpuffen.
Beide Muster haben dieselbe Ursache: fehlende Klarheit darüber, was KI tatsächlich kann. ARC-AGI-3 liefert jetzt eine wissenschaftliche Grundlage für das, was ich in der Praxis täglich beobachte.
Was jetzt strategisch wichtig ist
Unternehmen, die KI heute erfolgreich einsetzen, haben eine Gemeinsamkeit: Sie haben definiert, wo KI wirklich hilft – und wo der Mensch führt. Diese Klarheit entsteht nicht von selbst. Sie braucht Struktur, Begleitung und gezielte Kompetenzentwicklung im Team.
Drei Fragen, die ich Führungskräften in diesem Zusammenhang regelmäßig stelle:
Wo verbringen Ihre Mitarbeitenden Zeit mit Aufgaben, die KI in Minuten erledigen könnte?
Dokumentation, Zusammenfassungen, erste Entwürfe – das sind typische Bereiche, in denen KI sofort entlastet.
Wo wird in Ihrem Unternehmen echtes Urteilsvermögen gebraucht?
Kundengespräche, strategische Weichenstellungen, Krisenmanagement – hier ist der Mensch nicht ersetzbar, sondern entscheidend.
Wie strukturiert ist der KI-Einsatz heute?
Wenn Mitarbeitende KI nutzen, ohne dass das Unternehmen weiß wie und wo, entstehen Risiken – in Bezug auf Qualität, Datenschutz und Konsistenz.
Diese drei Fragen sind kein Selbstzweck. Sie sind der Ausgangspunkt für eine KI-Strategie, die wirklich trägt.
Fazit
ARC-AGI-3 ist kein Beweis dafür, dass KI überschätzt wird. Es ist eine Einladung zur Klarheit. KI ist ein präzises, leistungsstarkes Werkzeug – mit definierten Stärken und definierten Grenzen. Führungskräfte, die das verstehen und strukturiert handeln, gewinnen nicht nur Effizienz. Sie gewinnen Orientierung in einem Thema, das viele noch immer verunsichert.
Die entscheidende Frage lautet nicht: „Setzen wir KI ein?" Sondern: „Setzen wir sie dort ein, wo sie wirklich wirkt – und befähigen wir unsere Teams, sie richtig zu führen?"

Möchten Sie gemeinsam herausarbeiten, wo KI in Ihrem Unternehmen den größten strategischen Hebel hat? Ich, Jörn Kugler von der KI PRAXIS AKADEMIE, begleite Sie dabei – praxisnah und ohne IT-Projekt.
Hinweis gemäß Art. 50 EU Ai Act: Der Inhalt dieser Seite (Text und Bilder) wurde mithilfe künstlicher Intelligenz erstellt.