← Alle Beiträge
Blog

Drei KI, ein Interview: Was bleibt von der Bildungskrise?

Um:bruch

Claude, Copilot und Gemini analysieren dasselbe WELT-Interview mit Josef Kraus — unabhängig voneinander. Wo stimmen sie überein? Wo widersprechen sie sich? Und was lernen wir darüber, wie KI-gestützte Analyse funktioniert?

Vorläufige Fassung. Dieser Beitrag befindet sich in redaktioneller Überarbeitung.

Das Experiment

Ein Interview. Drei KI-Modelle. Kein Austausch.

Josef Kraus, 35 Jahre Gymnasiallehrer, 30 Jahre Präsident des Deutschen Lehrerverbandes, gibt der WELT ein Interview über die Krise des deutschen Bildungssystems. Seine Kernthese: Die Absenkung von Leistungsanforderungen im Namen der “Kindgerechtigkeit” gefährde die Zukunft der Kinder.

Wir haben dasselbe Interview unabhängig voneinander von Claude (Anthropic), Copilot (Microsoft/OpenAI) und Gemini (Google) analysieren lassen — mit identischem Auftrag: Alle Fakten prüfen. Thesen auf empirische Belastbarkeit testen. Alternativerklärungen entwickeln. Bericht erstellen.

Das Ergebnis ist aufschlussreich — nicht nur für die Bildungsdebatte, sondern auch für die Frage, wie unterschiedlich KI-Modelle dieselbe Aufgabe angehen.


Wo alle drei übereinstimmen

Trotz unterschiedlicher Methodik kommen alle drei Modelle zu bemerkenswert ähnlichen Kernbefunden:

1. Der Leistungsrückgang ist real. IQB-Bildungstrend 2022/2024 belegt sinkende Kompetenzen in Mathematik, Naturwissenschaften und Deutsch. Beide Modelle stufen das als robust ein.

2. Der Lehrermangel ist strukturell. Beide bestätigen das Problem, beide weisen darauf hin, dass Kraus’ Zahl (70.000) je nach Quelle variiert (49.000–150.000).

3. Der Infrastrukturverfall ist massiv — und Kraus unterschätzt ihn. Beide identifizieren Kraus’ “10 Milliarden” als falsch oder deutlich zu niedrig. Die KfW-Zahlen liegen bei 45–68 Milliarden. Kraus’ Fehler stärkt sein eigenes Argument.

4. Die Polizei-Diktat-Zahlen stimmen. 39% Durchfallquote, 30% davon Abiturienten — beide bestätigen die Zahlen als korrekt.

5. Noteninflation existiert. Die Schere zwischen besseren Noten und schlechteren Kompetenzmessungen ist belegt.

6. Migration als Ursache ist unterkomplex. Alle drei Modelle warnen: Korrelation ist nicht Kausalität. Der “Migrationseffekt” ist zu großen Teilen ein Armuts- und Spracheffekt.


Wo sie sich unterscheiden

Faktencheck: Drei Modelle, drei Maßstäbe

BehauptungClaudeCopilotGemini
Berlin: 90% MigrantenanteilKORREKT (19 Schulen > 90%)“unklar”Teilweise belastbar
Niedersachsen: Division gestrichenKORREKT (verschoben in Sek I)“umstritten”Falsch / Irreführend
KfW-SanierungszahlFALSCH (10 statt 67,8 Mrd.)“wahrscheinlich falsch (~54,8 Mrd.)”Falsch (47 Mrd.)
Metalldetektoren an Schulen(nicht geprüft)“anekdotisch”Irreführend (importierte US-Debatte)

Der Niedersachsen-Fall ist besonders aufschlussreich: Alle drei bestätigen denselben Fakt (schriftliches Dividieren wird in Sek I verschoben), bewerten aber Kraus’ Framing völlig unterschiedlich. Claude sagt: “Er behauptet, es wird gestrichen — und das stimmt für die Grundschule.” Gemini sagt: “Er framt es irreführend, weil es eine didaktische Modernisierung ist, keine Anspruchssenkung.” Beide haben recht — es kommt auf den Rahmen an.

Drei Persönlichkeiten, drei Analysestile

DimensionClaudeCopilotGemini
AnsatzEmpirisch-quantitativEpistemisch-methodischPolitisch-rhetorisch
StärkeQuellen-Gründlichkeit, EffektstärkenBescheidenheit, “belegt vs. plausibel”Rhetorik-Analyse, Dekadenz-Narrativ erkennen
SchwächeKann faktenbasiert bestätigend wirkenStuft Belegbares als “unklar” einPolitische Wertungen in der Analyse
TonfallSachlich-nüchternVorsichtig-akademischPointiert-politisch

Claude sucht aktiv nach Quellen und liefert Zahlen. 13 Behauptungen, 9 bestätigt, 1 widerlegt. Hattie-Effektstärken, PISA-Punkte, KfW-Milliarden — alles quantifiziert und belegbar.

Copilot unterscheidet sauberer zwischen “plausibel” und “belegt”. “Aus Trendbeschreibung folgt kein Kausalnachweis” — methodisch die reifste Aussage. Dafür bleibt manches ungeprüft.

Gemini startet mit einer Rhetorik-Analyse, die Claude und Copilot komplett fehlt: “Dekadenz-Narrativ”, “Polarisierung”, “Verwebung realer Symptome mit persönlichen Deutungen”. Das ist ein wertvoller Beitrag — aber Gemini rutscht selbst in politische Wertungen (“populistisch”, “rückwärtsgewandt”), die in einer Faktenanalyse deplatziert wirken.

Gesamturteil im Vergleich

ClaudeCopilotGemini
Kraus’ Fakten9/13 korrekt”Stärkste belastbar""In Grundbeobachtungen korrekt”
Kraus’ Thesen”Teilweise richtig, unterkomplex""Tragfähig + Überdehnungen""Populistisch, rückwärtsgewandt”
HauptkritikMonokausal, Mehrebenenmodell nötigKausalverkürzung, KonfundierungSucht Schuld bei Identitätspolitik statt Strukturen
Schärfste BewertungSachlich-distanziertMethodisch-vorsichtigPolitisch-urteilend

Was wir daraus lernen — über Bildung

Die Bildungskrise ist real. Alle drei Modelle bestätigen das unabhängig voneinander. Aber die Ursachenfrage ist komplex. Ein Mehrebenenmodell erklärt die Befundlage besser als Kraus’ kulturkritische Großnarrative:

  1. Strukturelle Unterfinanzierung — 47–68 Mrd. Sanierungsstau, Bildungsausgaben unter OECD-Schnitt
  2. Lehrermangel — quantitativ und qualitativ (10,5% ohne anerkannte Prüfung)
  3. Corona-Schock — 35% Lernverlust laut Metaanalyse, besonders für Benachteiligte
  4. Sozioökonomische Segregation — Kinderarmut als Hauptprädiktor, Gymnasium als Regelschule, Restschulen-Problem
  5. Bildungsexpansion ohne Strukturanpassung — über 50% streben Abitur an, Haupt-/Realschulen mit konzentrierten Problemlagen
  6. Fehlende gesellschaftliche Vorleistung (Maslow) — Grundbedürfnisse nicht erfüllt, Ganztag ohne Erholungskonzept, marode Infrastruktur
  7. Steigende Komplexität bei gleichen Ressourcen — Wissenskanon wächst, Stundentafel nicht, Personal sinkt
  8. Teilweise problematische pädagogische Trends — unkritische Digitalisierung, Standardabsenkung

Faktor 8 ist der Teil, den Kraus adressiert. Aber er erklärt nur einen Teil der Varianz — und die Faktoren 1–7 sind empirisch stärker belegt.

Was wir daraus lernen — über KI-Analyse

Drei Modelle, dasselbe Material, ähnliche Grunddiagnose — aber drei erkennbar verschiedene “Persönlichkeiten”:

  • Claude verifiziert gründlich und bleibt sachlich-nüchtern
  • Copilot trennt sauber zwischen “belegt” und “plausibel”
  • Gemini erkennt rhetorische Strategien und politische Narrative — wird dabei aber selbst politisch

Das Spektrum ist aufschlussreich: Von empirisch-quantitativ (Claude) über methodisch-vorsichtig (Copilot) bis politisch-urteilend (Gemini). Keine der drei Analysen halluziniert Fakten. Aber sie gewichten, rahmen und urteilen sehr unterschiedlich.

Die wichtigste Erkenntnis: Ein einzelnes KI-Modell gibt eine einzelne Perspektive. Erst der Vergleich macht die blinden Flecken sichtbar — sowohl die des Interviewten als auch die der Analysierenden.

Im Nachgespräch: Zwei Hypothesen, die Kraus komplett fehlen

Im redaktionellen Nachgespräch mit Gemini entstanden zwei weitere Erklärungsansätze, die den Hypothesenraum entscheidend erweitern:

Maslow-Hypothese: Leistung braucht Voraussetzungen

Kraus fordert Anstrengung. Aber Anstrengung setzt voraus, dass Grundbedürfnisse erfüllt sind. Kein Essen zuhause, kein ruhiger Lernplatz, der Schulweg als Stressfaktor, den ganzen Tag in maroden Gebäuden ohne Erholungsräume — unter diesen Bedingungen ist “Leistungsprinzip” ein leerer Appell. Die Bertelsmann-Stiftung belegt: Kinderarmut ist ein stärkerer Prädiktor für Schulversagen als Herkunft, Sprache oder Pädagogik.

Kraus benennt die Symptome selbst (marode Toiletten, Sanierungsstau von Dutzenden Milliarden) — zieht aber nicht die Konsequenz. “Mehr Leistung fordern” ohne “Voraussetzungen liefern” ist ein logischer Kurzschluss.

Overload-Hypothese: Die Standards steigen, nicht sinken

Die KMK-Lehrplanhistorie belegt einen massiven Paradigmenwechsel: Vor 2000 galten Input-Lehrpläne (Stoffkataloge, Reproduktion — “Lerne die Hauptstadt auswendig”). Nach dem PISA-Schock 2000 wechselte die KMK zu Output-Standards (Kompetenzorientierung, Transfer — “Werte komplexe Sachtexte aus und prüfe digitale Quellen kritisch”). Hinzu kamen 60+ Einzelkompetenzen aus der KMK-Strategie “Bildung in der digitalen Welt” (2016) — zusätzlich zu allen bestehenden Fachstandards.

Ein Auswendiglerner der 1970er würde an den heutigen Kompetenzerwartungen scheitern. Die Stundentafel ist aber kaum gewachsen. Dieselbe Zeit, deutlich mehr und komplexerer Stoff, weniger Personal.

Das dreht Kraus’ Kernthese um: Nicht “die Schule ist zu einfach geworden”, sondern die Schule versucht kognitiv anspruchsvollere Dinge zu vermitteln als je zuvor — und stolpert dabei über die ausfransenden sozialen Ränder der Gesellschaft.

Dazu kommt ein fundamentales Designproblem — und es geht tiefer als nur eine Verantwortungsverschiebung von Lehrer zu Schüler. Es ist eine Kategorienverschiebung:

Der alte Lehrplan sagte: “Behandle A, B, C” — wobei A = Weimarer Republik, B = Versailler Vertrag, C = Weltwirtschaftskrise. Konkrete, abzählbare Themen. Endlich. Abhakbar. Wenn der Lehrer sie behandelt hatte, war sein Job erledigt. Wenn der Schüler sie gelernt hatte, konnte er bestehen.

Der neue Standard sagt: “Der Schüler kann A’, B’, C’” — wobei A’ nicht mehr “Weimarer Republik” ist, sondern die Fähigkeit, das Scheitern jeder Demokratie multiperspektivisch zu dekonstruieren. B’ ist nicht “Versailler Vertrag”, sondern die Kompetenz, internationale Vertragswerke kriteriengeleitet zu analysieren. C’ ist nicht “Weltwirtschaftskrise 1929”, sondern die Transferfähigkeit, ökonomische Krisen in ihren sozialen Folgen zu bewerten.

Der Unterschied: A war ein Thema. A’ ist alles, was man können muss, um mit allen Themen umzugehen, die wie A sind. A ist endlich. A’ ist potenziell unendlich.

Was das bedeutet:

  • Der Schüler kann A’ nie “fertig lernen”, weil A’ kein Stoff ist, sondern eine Fähigkeit
  • Der Lehrer kann nie “beweisen”, dass er A’ unterrichtet hat, weil sich A’ an jedem Thema anders zeigt
  • Die Klausur kann A’ an jedem beliebigen Thema prüfen — der Schüler weiß also nicht, was er am Schreibtisch üben soll
  • “Hab ich das jetzt?” ist bei A klar beantwortbar. Bei A’ nie.

Das ist keine Vereinfachung. Das ist eine Entgrenzung — und sie erklärt, warum beide Seiten ausbrennen: Der Schüler verliert den Halt (kein Abhaken, kein “fertig”), der Lehrer verliert die Entlastung (kein “ich hab meinen Teil getan”). Nicht weil die Schule zu einfach geworden ist, sondern weil sie kategorial anders geworden ist — ohne dass irgendjemand die Ressourcen, die Ausbildung oder die Infrastruktur angepasst hätte.


Redaktionelle Einordnung

Wo stehen wir als Redaktion? Wir teilen die Grunddiagnose aller drei Modelle: Die Bildungskrise ist real, die Fakten sind überwiegend korrekt, aber die Kausalzuschreibung ist zu einfach.

Was wir ergänzen: Kraus’ Interview ist ein Symptom des Diskurses, nicht nur ein Gegenstand der Analyse. Die Debatte über Bildung wird in Deutschland seit Jahrzehnten als Kulturkampf geführt (Leistung vs. Kindgerechtigkeit, Tradition vs. Reform, Disziplin vs. Demokratie) — statt als empirisch informierte Strukturpolitik. Alle drei KI-Modelle zeigen: Die Evidenz stützt weder das eine noch das andere Lager vollständig. Sie stützt ein Mehrebenenmodell, das weniger griffig ist, aber näher an der Wahrheit.

Was in der Debatte fehlt: Soziologische Leerstellen

Kraus spricht über Schule, als wäre sie ein geschlossenes System. Aber Schule ist eingebettet in eine Gesellschaft — und diese Gesellschaft liefert gerade nicht:

  • Wohnungskrise: Familien in überbelegten Wohnungen, Kinder ohne eigenen Schreibtisch. Laut Bertelsmann leben 20,8% der Kinder in Armut — Tendenz steigend. In Bremen: 31,9%.
  • Care-Krise: Wenn beide Eltern arbeiten müssen, um die Miete zu zahlen, fehlt die Begleitung bei Hausaufgaben. Die Ganztagsschule kompensiert das nicht — sie verlängert nur die Anwesenheit in oft maroden Gebäuden ohne Erholungskonzept.
  • Ernährung: Laut brotZeit-Studie 2023 kommt jedes vierte Kind bundesweit ohne Frühstück in die Schule. Neurobiologisch ist Lernen ohne Glukose nicht möglich — Maslows Pyramide ist keine Theorie, sondern Hirnphysiologie.
  • Frühe Selektion: Deutschland sortiert in Klasse 4. PISA-Daten zeigen: In Deutschland erklärt der sozioökonomische Status 19% der Leistungsvarianz — in Kanada unter 7%. Das ist kein Begabungsunterschied. Das ist ein Systemdesign, das Armut in Bildungsarmut übersetzt.
  • Der unsichtbare Lehrplan: Die neuen KMK-Standards fordern “multiperspektivische Urteilskompetenz” und “kriteriengeleitet analysieren”. Wer diese Sprache von zuhause nicht kennt, scheitert — nicht an mangelnder Intelligenz, sondern an fehlendem kulturellem Kapital (Bourdieu). Kompetenzorientierung ohne Chancengleichheit ist Selektion durch Abstraktion.

Kraus’ Forderung “mehr Leistung” ist unter diesen Bedingungen wie “schneller laufen” zu fordern, während man den Läufern die Schuhe wegnimmt.

Anmerkung der Redaktion: Das Demokratie-Paradox

Besonders irritierend ist Kraus’ Kritik an “demokratischer Schule”. Er setzt “demokratisch” in Anführungszeichen und stellt es als Ursache für sinkende Leistungen dar. Zwei Probleme damit:

Erstens — Verfassungskonformität: Art. 7 GG und die Schulgesetze aller Länder definieren Demokratieerziehung als Kernauftrag der Schule. Wenn ein ehemaliger Lehrerverbandspräsident Demokratie in der Schule als Problem darstellt, bewegt er sich in einem Spannungsfeld zum Verfassungsauftrag. Schule muss demokratisch erziehen — das ist keine pädagogische Mode, sondern geltendes Recht.

Zweitens — Zirkularität: Kraus kritisiert etwas, das so nie flächendeckend umgesetzt wurde. “Demokratische Schule” im Sinne von Mitbestimmung, Partizipation und Selbstwirksamkeit existiert an der überwiegenden Mehrheit deutscher Schulen allenfalls als Ideal — nicht als gelebte Praxis. Etwas als Ursache für Probleme zu benennen, das nie wirklich implementiert wurde, ist ein Zirkelschluss.


Die Einzelanalysen


Redaktion: LG | Modelle: Claude Opus 4.6, Microsoft Copilot (GPT-4o), Google Gemini 3.1 Pro | Methode: Multi-Modell-Vergleich (MMV) | 06.04.2026

✉️ Schreiben Sie uns 📝 Kontaktformular