KI im Unterricht: bessere Note, schwächeres Lernen

Der Fortschritt, der nur wie Lernen aussieht

Manche Verbesserungen wirken überzeugend, gerade weil sie so schnell eintreten. In einem Experiment mit fast 1.000 Schülerinnen und Schülern in der Türkei löste die Gruppe mit unbeschränkter KI-Unterstützung im Mathematiktraining 48 Prozent mehr Aufgaben korrekt als die Kontrollgruppe. Im anschließenden Test ohne Hilfe fiel ihre Leistung jedoch unter das Niveau der Lernenden, die nie mit KI gearbeitet hatten, und zwar um 17 Prozent. Beschrieben wurde dieses Muster in einer von Wharton und der University of Pennsylvania aufgegriffenen Studie unter Leitung von Hamsa Bastani.

Der Begriff, der dafür inzwischen kursiert, lautet kognitive Schulden. Die Maschine leiht gewissermaßen Verständnis aus. Solange dieses Darlehen verfügbar ist, steigt die Leistung. Sobald es entzogen wird, zeigt sich, wie wenig vom zugrunde liegenden Stoff tatsächlich verankert wurde. Genau deshalb ist das subjektive Lernerlebnis so trügerisch. Die Aufgabe geht schneller, die Frustration sinkt, die Sicherheit steigt. Nur ist damit noch nicht gesagt, dass auch belastbares Wissen entstanden ist.

Für Bildung ist dieser Unterschied zentral. Es genügt nicht, mit Unterstützung zur richtigen Lösung zu kommen. Entscheidend ist, ob man den Denkweg später selbst wieder herstellen kann, unter Zeitdruck, ohne Hilfsmittel und bei neuen Problemtypen. Wer nur die Antwort effizient produziert hat, verfügt nicht automatisch über Verständnis.

Was dabei im Gehirn sichtbar wird

Nataliya Kosmyna vom MIT Media Lab wollte genau diesen Punkt auf neurokognitiver Ebene beobachten. In einem Preprint mit 54 Teilnehmenden verglich ihr Team drei Gruppen bei Schreibaufgaben: eine mit LLM, eine mit Suchmaschine und eine ohne externe Werkzeuge. Die Gruppe ohne Hilfsmittel zeigte die stärksten und am breitesten verteilten neuronalen Netzwerke. Die LLM-Gruppe wies über die gemessenen Bänder hinweg die schwächste Konnektivität auf.

Besonders häufig zitiert wurde eine weitere Angabe aus dem Paper: 83 Prozent der ChatGPT-Nutzenden konnten kurz nach dem Schreiben keinen einzigen Passus aus ihrem eigenen Text erinnern. Das deutet auf ein sehr schwaches Einprägen hin. Man sollte diesen Befund allerdings mit der gebotenen Vorsicht lesen. Es handelt sich weiterhin um einen Preprint, und die Arbeit ist inzwischen öffentlich methodisch kritisiert worden. Gleichwohl passt die Grundrichtung zu einer breiteren Sorge: Wenn kognitive Anstrengung ausgelagert wird, sinkt oft auch die Tiefe der Verarbeitung.

Dazu passt auch eine im PMC verfügbare Überblicksarbeit, die Studien bündelt, in denen längere KI-Nutzung mit schwächerer Gedächtnisleistung, geringerer Behaltensleistung und Einbußen beim kritischen Denken verbunden wird. Das ist kein Argument gegen jedes KI-Werkzeug. Es ist ein Argument gegen die Illusion, Bequemlichkeit sei automatisch lernförderlich.

Die Logik der Abhängigkeit

Bastanis Studie macht den Mechanismus sehr anschaulich. Die Gruppe mit freiem Zugriff auf das System konnte beliebige Fragen stellen, sich Lösungswege ausgeben lassen und zügig weiterarbeiten. In der Übungsphase sah das nach einem klaren Erfolg aus. Nur beruhte dieser Erfolg offenbar zu einem beträchtlichen Teil darauf, dass die Software genau jene Denkarbeit übernahm, die sonst zum Aufbau tragfähiger Konzepte beitragen würde.

Als der Test ohne KI stattfand, kehrte sich der Vorsprung um. Die Kontrollgruppe, die mit Heft, Lehrbuch und eigenem Ringen gearbeitet hatte, behielt die Konzepte besser. Die KI-Gruppe stand plötzlich ohne das kognitive Gerüst da, das sie bis dahin gestützt hatte. Das ist ein Muster, das man auch aus anderen Bereichen kennt: Reibungsverlust sinkt, Ausführung wird leichter, aber die unabhängige Problemlösefähigkeit wächst nicht mit.

Ein ähnliches Signal kam aus einem Experiment an der Corvinus University of Budapest. Dort berichteten die Autoren von Wissensständen, die 20 bis 40 Prozentpunkte unter früheren Kohorten lagen. Zudem lag der Median des als KI-generiert erkannten Inhalts in Abschlussarbeiten bei 100 Prozent, selbst in Gruppen, in denen KI nicht erlaubt war. Das wirkt weniger wie eine Randnotiz als wie ein Hinweis darauf, wie schnell Gewöhnung in Abhängigkeit umschlagen kann.

Warum selbst der pädagogische Tutor kein Wundermittel ist

Besonders aufschlussreich ist, dass die Wharton-Studie noch eine zweite KI-Variante prüfte. Diese Tutor-Version sollte gerade nicht einfach Lösungen liefern, sondern Hinweise geben und Denkpfade anleiten. Man könnte erwarten, dass damit das Problem entschärft wird. Tatsächlich schnitt diese Gruppe im Test ungefähr auf dem Niveau der Kontrollgruppe ab. Sie fiel also nicht zurück, zeigte aber auch keinen messbaren Lernvorsprung.

Gerade darin liegt die unbequeme Pointe. Ein didaktisch besser gestaltetes System kann Schäden begrenzen, garantiert aber noch keinen Lerngewinn. Entscheidend bleibt, ob Lernende selbst geistige Arbeit leisten oder nur eleganter durch Aufgaben geführt werden. Die richtige Frage lautet daher nicht nur, wie gut die KI antwortet, sondern ob sie eigenständiges Denken erzwingt oder umgeht.

Dass zu viel Assistenz kognitive Prozesse abschwächen kann, zeigt sich auch in Analysen über den Preis sinkender Denkanstrengung durch KI. Das Risiko liegt nicht nur in falschen Antworten. Es liegt in der Gewohnheit, plausible Antworten ungeprüft zu übernehmen.

Dauerhaftes Lernen entsteht durch Reibung

Die vermutlich unpopulärste Antwort lautet deshalb: Lernen braucht Reibung. Fehler, verzögerte Erinnerung, Abrufübungen und verteiltes Wiederholen wirken gerade deshalb, weil sie mühsamer sind. Was sich im Moment langsamer anfühlt, baut oft die stabileren mentalen Strukturen.

Das deckt sich mit Methoden, die seit Jahren robuste Effekte zeigen, etwa Abruftraining und Interleaving. Im MIT-Experiment berichtete die Gruppe ohne Werkzeuge über das stärkste Gefühl von Eigenleistung, die höchste Zufriedenheit und die robusteste Erinnerung an den eigenen Text. Die Mühe war dort nicht der Defekt des Systems. Sie war der eigentliche Lernmechanismus.

Für Schülerinnen, Schüler, Eltern und Lehrkräfte ergibt sich daraus keine simple Verbotslogik. KI kann beim Prüfen, Vergleichen, Strukturieren und Aufdecken von Lücken hilfreich sein. Problematisch wird es dort, wo sie die gedankliche Kernarbeit ersetzt. Der 48-Prozent-Schub verschwindet, sobald das Werkzeug fehlt. Zurück bleibt, wenn man nicht aufpasst, ein trainiertes Ausführen ohne belastbares Verstehen.

KI hebt die Note. Das Lernen kann trotzdem sinken

Der Fortschritt, der nur wie Lernen aussieht

Was dabei im Gehirn sichtbar wird

Die Logik der Abhängigkeit

Warum selbst der pädagogische Tutor kein Wundermittel ist

Dauerhaftes Lernen entsteht durch Reibung

Quellen und Referenzen

Das könnte Sie auch interessieren:

Wenn KI besser antwortet, lernen wir schlechter

Die Lernkarte, die fast scheitert, bleibt hängen

Das Denkmodell, das alle anderen erst wirksam macht