Vorläufige Fassung. Dieser Beitrag befindet sich in redaktioneller Überarbeitung.
Das Experiment
Ein Interview. Drei KI-Modelle. Kein Austausch.
Josef Kraus, 35 Jahre Gymnasiallehrer, 30 Jahre Präsident des Deutschen Lehrerverbandes, gibt der WELT ein Interview über die Krise des deutschen Bildungssystems. Seine Kernthese: Die Absenkung von Leistungsanforderungen im Namen der “Kindgerechtigkeit” gefährde die Zukunft der Kinder.
Wir haben dasselbe Interview unabhängig voneinander von Claude (Anthropic), Copilot (Microsoft/OpenAI) und Gemini (Google) analysieren lassen — mit identischem Auftrag: Alle Fakten prüfen. Thesen auf empirische Belastbarkeit testen. Alternativerklärungen entwickeln. Bericht erstellen.
Das Ergebnis ist aufschlussreich — nicht nur für die Bildungsdebatte, sondern auch für die Frage, wie unterschiedlich KI-Modelle dieselbe Aufgabe angehen.
Wo alle drei übereinstimmen
Trotz unterschiedlicher Methodik kommen alle drei Modelle zu bemerkenswert ähnlichen Kernbefunden:
1. Der Leistungsrückgang ist real. IQB-Bildungstrend 2022/2024 belegt sinkende Kompetenzen in Mathematik, Naturwissenschaften und Deutsch. Beide Modelle stufen das als robust ein.
2. Der Lehrermangel ist strukturell. Beide bestätigen das Problem, beide weisen darauf hin, dass Kraus’ Zahl (70.000) je nach Quelle variiert (49.000–150.000).
3. Der Infrastrukturverfall ist massiv — und Kraus unterschätzt ihn. Beide identifizieren Kraus’ “10 Milliarden” als falsch oder deutlich zu niedrig. Die KfW-Zahlen liegen bei 45–68 Milliarden. Kraus’ Fehler stärkt sein eigenes Argument.
4. Die Polizei-Diktat-Zahlen stimmen. 39% Durchfallquote, 30% davon Abiturienten — beide bestätigen die Zahlen als korrekt.
5. Noteninflation existiert. Die Schere zwischen besseren Noten und schlechteren Kompetenzmessungen ist belegt.
6. Migration als Ursache ist unterkomplex. Alle drei Modelle warnen: Korrelation ist nicht Kausalität. Der “Migrationseffekt” ist zu großen Teilen ein Armuts- und Spracheffekt.
Wo sie sich unterscheiden
Faktencheck: Drei Modelle, drei Maßstäbe
| Behauptung | Claude | Copilot | Gemini |
|---|---|---|---|
| Berlin: 90% Migrantenanteil | KORREKT (19 Schulen > 90%) | “unklar” | Teilweise belastbar |
| Niedersachsen: Division gestrichen | KORREKT (verschoben in Sek I) | “umstritten” | Falsch / Irreführend |
| KfW-Sanierungszahl | FALSCH (10 statt 67,8 Mrd.) | “wahrscheinlich falsch (~54,8 Mrd.)” | Falsch (47 Mrd.) |
| Metalldetektoren an Schulen | (nicht geprüft) | “anekdotisch” | Irreführend (importierte US-Debatte) |
Der Niedersachsen-Fall ist besonders aufschlussreich: Alle drei bestätigen denselben Fakt (schriftliches Dividieren wird in Sek I verschoben), bewerten aber Kraus’ Framing völlig unterschiedlich. Claude sagt: “Er behauptet, es wird gestrichen — und das stimmt für die Grundschule.” Gemini sagt: “Er framt es irreführend, weil es eine didaktische Modernisierung ist, keine Anspruchssenkung.” Beide haben recht — es kommt auf den Rahmen an.
Drei Persönlichkeiten, drei Analysestile
| Dimension | Claude | Copilot | Gemini |
|---|---|---|---|
| Ansatz | Empirisch-quantitativ | Epistemisch-methodisch | Politisch-rhetorisch |
| Stärke | Quellen-Gründlichkeit, Effektstärken | Bescheidenheit, “belegt vs. plausibel” | Rhetorik-Analyse, Dekadenz-Narrativ erkennen |
| Schwäche | Kann faktenbasiert bestätigend wirken | Stuft Belegbares als “unklar” ein | Politische Wertungen in der Analyse |
| Tonfall | Sachlich-nüchtern | Vorsichtig-akademisch | Pointiert-politisch |
Claude sucht aktiv nach Quellen und liefert Zahlen. 13 Behauptungen, 9 bestätigt, 1 widerlegt. Hattie-Effektstärken, PISA-Punkte, KfW-Milliarden — alles quantifiziert und belegbar.
Copilot unterscheidet sauberer zwischen “plausibel” und “belegt”. “Aus Trendbeschreibung folgt kein Kausalnachweis” — methodisch die reifste Aussage. Dafür bleibt manches ungeprüft.
Gemini startet mit einer Rhetorik-Analyse, die Claude und Copilot komplett fehlt: “Dekadenz-Narrativ”, “Polarisierung”, “Verwebung realer Symptome mit persönlichen Deutungen”. Das ist ein wertvoller Beitrag — aber Gemini rutscht selbst in politische Wertungen (“populistisch”, “rückwärtsgewandt”), die in einer Faktenanalyse deplatziert wirken.
Gesamturteil im Vergleich
| Claude | Copilot | Gemini | |
|---|---|---|---|
| Kraus’ Fakten | 9/13 korrekt | ”Stärkste belastbar" | "In Grundbeobachtungen korrekt” |
| Kraus’ Thesen | ”Teilweise richtig, unterkomplex" | "Tragfähig + Überdehnungen" | "Populistisch, rückwärtsgewandt” |
| Hauptkritik | Monokausal, Mehrebenenmodell nötig | Kausalverkürzung, Konfundierung | Sucht Schuld bei Identitätspolitik statt Strukturen |
| Schärfste Bewertung | Sachlich-distanziert | Methodisch-vorsichtig | Politisch-urteilend |
Was wir daraus lernen — über Bildung
Die Bildungskrise ist real. Alle drei Modelle bestätigen das unabhängig voneinander. Aber die Ursachenfrage ist komplex. Ein Mehrebenenmodell erklärt die Befundlage besser als Kraus’ kulturkritische Großnarrative:
- Strukturelle Unterfinanzierung — 47–68 Mrd. Sanierungsstau, Bildungsausgaben unter OECD-Schnitt
- Lehrermangel — quantitativ und qualitativ (10,5% ohne anerkannte Prüfung)
- Corona-Schock — 35% Lernverlust laut Metaanalyse, besonders für Benachteiligte
- Sozioökonomische Segregation — Kinderarmut als Hauptprädiktor, Gymnasium als Regelschule, Restschulen-Problem
- Bildungsexpansion ohne Strukturanpassung — über 50% streben Abitur an, Haupt-/Realschulen mit konzentrierten Problemlagen
- Fehlende gesellschaftliche Vorleistung (Maslow) — Grundbedürfnisse nicht erfüllt, Ganztag ohne Erholungskonzept, marode Infrastruktur
- Steigende Komplexität bei gleichen Ressourcen — Wissenskanon wächst, Stundentafel nicht, Personal sinkt
- Teilweise problematische pädagogische Trends — unkritische Digitalisierung, Standardabsenkung
Faktor 8 ist der Teil, den Kraus adressiert. Aber er erklärt nur einen Teil der Varianz — und die Faktoren 1–7 sind empirisch stärker belegt.
Was wir daraus lernen — über KI-Analyse
Drei Modelle, dasselbe Material, ähnliche Grunddiagnose — aber drei erkennbar verschiedene “Persönlichkeiten”:
- Claude verifiziert gründlich und bleibt sachlich-nüchtern
- Copilot trennt sauber zwischen “belegt” und “plausibel”
- Gemini erkennt rhetorische Strategien und politische Narrative — wird dabei aber selbst politisch
Das Spektrum ist aufschlussreich: Von empirisch-quantitativ (Claude) über methodisch-vorsichtig (Copilot) bis politisch-urteilend (Gemini). Keine der drei Analysen halluziniert Fakten. Aber sie gewichten, rahmen und urteilen sehr unterschiedlich.
Die wichtigste Erkenntnis: Ein einzelnes KI-Modell gibt eine einzelne Perspektive. Erst der Vergleich macht die blinden Flecken sichtbar — sowohl die des Interviewten als auch die der Analysierenden.
Im Nachgespräch: Zwei Hypothesen, die Kraus komplett fehlen
Im redaktionellen Nachgespräch mit Gemini entstanden zwei weitere Erklärungsansätze, die den Hypothesenraum entscheidend erweitern:
Maslow-Hypothese: Leistung braucht Voraussetzungen
Kraus fordert Anstrengung. Aber Anstrengung setzt voraus, dass Grundbedürfnisse erfüllt sind. Kein Essen zuhause, kein ruhiger Lernplatz, der Schulweg als Stressfaktor, den ganzen Tag in maroden Gebäuden ohne Erholungsräume — unter diesen Bedingungen ist “Leistungsprinzip” ein leerer Appell. Die Bertelsmann-Stiftung belegt: Kinderarmut ist ein stärkerer Prädiktor für Schulversagen als Herkunft, Sprache oder Pädagogik.
Kraus benennt die Symptome selbst (marode Toiletten, Sanierungsstau von Dutzenden Milliarden) — zieht aber nicht die Konsequenz. “Mehr Leistung fordern” ohne “Voraussetzungen liefern” ist ein logischer Kurzschluss.
Overload-Hypothese: Die Standards steigen, nicht sinken
Die KMK-Lehrplanhistorie belegt einen massiven Paradigmenwechsel: Vor 2000 galten Input-Lehrpläne (Stoffkataloge, Reproduktion — “Lerne die Hauptstadt auswendig”). Nach dem PISA-Schock 2000 wechselte die KMK zu Output-Standards (Kompetenzorientierung, Transfer — “Werte komplexe Sachtexte aus und prüfe digitale Quellen kritisch”). Hinzu kamen 60+ Einzelkompetenzen aus der KMK-Strategie “Bildung in der digitalen Welt” (2016) — zusätzlich zu allen bestehenden Fachstandards.
Ein Auswendiglerner der 1970er würde an den heutigen Kompetenzerwartungen scheitern. Die Stundentafel ist aber kaum gewachsen. Dieselbe Zeit, deutlich mehr und komplexerer Stoff, weniger Personal.
Das dreht Kraus’ Kernthese um: Nicht “die Schule ist zu einfach geworden”, sondern die Schule versucht kognitiv anspruchsvollere Dinge zu vermitteln als je zuvor — und stolpert dabei über die ausfransenden sozialen Ränder der Gesellschaft.
Dazu kommt ein fundamentales Designproblem — und es geht tiefer als nur eine Verantwortungsverschiebung von Lehrer zu Schüler. Es ist eine Kategorienverschiebung:
Der alte Lehrplan sagte: “Behandle A, B, C” — wobei A = Weimarer Republik, B = Versailler Vertrag, C = Weltwirtschaftskrise. Konkrete, abzählbare Themen. Endlich. Abhakbar. Wenn der Lehrer sie behandelt hatte, war sein Job erledigt. Wenn der Schüler sie gelernt hatte, konnte er bestehen.
Der neue Standard sagt: “Der Schüler kann A’, B’, C’” — wobei A’ nicht mehr “Weimarer Republik” ist, sondern die Fähigkeit, das Scheitern jeder Demokratie multiperspektivisch zu dekonstruieren. B’ ist nicht “Versailler Vertrag”, sondern die Kompetenz, internationale Vertragswerke kriteriengeleitet zu analysieren. C’ ist nicht “Weltwirtschaftskrise 1929”, sondern die Transferfähigkeit, ökonomische Krisen in ihren sozialen Folgen zu bewerten.
Der Unterschied: A war ein Thema. A’ ist alles, was man können muss, um mit allen Themen umzugehen, die wie A sind. A ist endlich. A’ ist potenziell unendlich.
Was das bedeutet:
- Der Schüler kann A’ nie “fertig lernen”, weil A’ kein Stoff ist, sondern eine Fähigkeit
- Der Lehrer kann nie “beweisen”, dass er A’ unterrichtet hat, weil sich A’ an jedem Thema anders zeigt
- Die Klausur kann A’ an jedem beliebigen Thema prüfen — der Schüler weiß also nicht, was er am Schreibtisch üben soll
- “Hab ich das jetzt?” ist bei A klar beantwortbar. Bei A’ nie.
Das ist keine Vereinfachung. Das ist eine Entgrenzung — und sie erklärt, warum beide Seiten ausbrennen: Der Schüler verliert den Halt (kein Abhaken, kein “fertig”), der Lehrer verliert die Entlastung (kein “ich hab meinen Teil getan”). Nicht weil die Schule zu einfach geworden ist, sondern weil sie kategorial anders geworden ist — ohne dass irgendjemand die Ressourcen, die Ausbildung oder die Infrastruktur angepasst hätte.
Redaktionelle Einordnung
Wo stehen wir als Redaktion? Wir teilen die Grunddiagnose aller drei Modelle: Die Bildungskrise ist real, die Fakten sind überwiegend korrekt, aber die Kausalzuschreibung ist zu einfach.
Was wir ergänzen: Kraus’ Interview ist ein Symptom des Diskurses, nicht nur ein Gegenstand der Analyse. Die Debatte über Bildung wird in Deutschland seit Jahrzehnten als Kulturkampf geführt (Leistung vs. Kindgerechtigkeit, Tradition vs. Reform, Disziplin vs. Demokratie) — statt als empirisch informierte Strukturpolitik. Alle drei KI-Modelle zeigen: Die Evidenz stützt weder das eine noch das andere Lager vollständig. Sie stützt ein Mehrebenenmodell, das weniger griffig ist, aber näher an der Wahrheit.
Was in der Debatte fehlt: Soziologische Leerstellen
Kraus spricht über Schule, als wäre sie ein geschlossenes System. Aber Schule ist eingebettet in eine Gesellschaft — und diese Gesellschaft liefert gerade nicht:
- Wohnungskrise: Familien in überbelegten Wohnungen, Kinder ohne eigenen Schreibtisch. Laut Bertelsmann leben 20,8% der Kinder in Armut — Tendenz steigend. In Bremen: 31,9%.
- Care-Krise: Wenn beide Eltern arbeiten müssen, um die Miete zu zahlen, fehlt die Begleitung bei Hausaufgaben. Die Ganztagsschule kompensiert das nicht — sie verlängert nur die Anwesenheit in oft maroden Gebäuden ohne Erholungskonzept.
- Ernährung: Laut brotZeit-Studie 2023 kommt jedes vierte Kind bundesweit ohne Frühstück in die Schule. Neurobiologisch ist Lernen ohne Glukose nicht möglich — Maslows Pyramide ist keine Theorie, sondern Hirnphysiologie.
- Frühe Selektion: Deutschland sortiert in Klasse 4. PISA-Daten zeigen: In Deutschland erklärt der sozioökonomische Status 19% der Leistungsvarianz — in Kanada unter 7%. Das ist kein Begabungsunterschied. Das ist ein Systemdesign, das Armut in Bildungsarmut übersetzt.
- Der unsichtbare Lehrplan: Die neuen KMK-Standards fordern “multiperspektivische Urteilskompetenz” und “kriteriengeleitet analysieren”. Wer diese Sprache von zuhause nicht kennt, scheitert — nicht an mangelnder Intelligenz, sondern an fehlendem kulturellem Kapital (Bourdieu). Kompetenzorientierung ohne Chancengleichheit ist Selektion durch Abstraktion.
Kraus’ Forderung “mehr Leistung” ist unter diesen Bedingungen wie “schneller laufen” zu fordern, während man den Läufern die Schuhe wegnimmt.
Anmerkung der Redaktion: Das Demokratie-Paradox
Besonders irritierend ist Kraus’ Kritik an “demokratischer Schule”. Er setzt “demokratisch” in Anführungszeichen und stellt es als Ursache für sinkende Leistungen dar. Zwei Probleme damit:
Erstens — Verfassungskonformität: Art. 7 GG und die Schulgesetze aller Länder definieren Demokratieerziehung als Kernauftrag der Schule. Wenn ein ehemaliger Lehrerverbandspräsident Demokratie in der Schule als Problem darstellt, bewegt er sich in einem Spannungsfeld zum Verfassungsauftrag. Schule muss demokratisch erziehen — das ist keine pädagogische Mode, sondern geltendes Recht.
Zweitens — Zirkularität: Kraus kritisiert etwas, das so nie flächendeckend umgesetzt wurde. “Demokratische Schule” im Sinne von Mitbestimmung, Partizipation und Selbstwirksamkeit existiert an der überwiegenden Mehrheit deutscher Schulen allenfalls als Ideal — nicht als gelebte Praxis. Etwas als Ursache für Probleme zu benennen, das nie wirklich implementiert wurde, ist ein Zirkelschluss.
Die Einzelanalysen
- Claude-Analyse: Faktencheck & Hypothesenraum →
- Copilot-Analyse: Kritische Einordnung →
- Gemini-Analyse: Rhetorik & Hypothesenraum →
Redaktion: LG | Modelle: Claude Opus 4.6, Microsoft Copilot (GPT-4o), Google Gemini 3.1 Pro | Methode: Multi-Modell-Vergleich (MMV) | 06.04.2026