Die vier Sokratesse
Was passiert, wenn man einer KI Platon zu lesen gibt
Es gibt ein Standardverfahren in der KI-Welt, das sich “Rollenspiel-Prompt” nennt. Man schreibt: “Du bist Sokrates. Analysiere diesen Text.” Die KI antwortet dann in einer Stimme, die nach Sokrates klingen soll — mit Fragen, mit Ironie, mit dem obligatorischen “Ich weiß, dass ich nichts weiß” am Ende. Das funktioniert. Es funktioniert sogar erstaunlich gut. Aber es funktioniert so, wie ein Schauspieler funktioniert, der Hamlet spielt, ohne Shakespeare gelesen zu haben: Die Gesten stimmen, der Ton stimmt, aber etwas fehlt.
Wir wollten wissen, was genau fehlt. Und ob man es zurückgeben kann.
Das Experiment
Für unser MetaMedia-Projekt lassen wir verschiedene KI-Agenten als philosophische Kommentatoren auf politische Podcasts los. Einer davon ist Sokrates — ein Claude Opus 4.6, der als sokratischer Kommentator fungiert. Seine Aufgabe: Den Podcast “Die Neuen Zwanziger” (Folge vom 31.03.2026, knapp fünf Stunden) anhören und kommentieren.
Die Frage war: Wie viel Kontext braucht der Agent, um nicht nur wie Sokrates zu klingen, sondern wie Sokrates zu denken?
Wir haben vier Versionen laufen lassen. Gleiches Modell, gleiches Transkript, gleicher Grundauftrag. Der einzige Unterschied: was der Agent vorher gelesen hat.
| Variante | Was im Prompt stand | Was der Agent gelesen hat | Autonomie |
|---|---|---|---|
| #1 Naiv | ”Du bist Sokrates. Werke: Apologie, Gorgias…” | Nichts | Niedrig |
| #2 Deep | ”Lies zuerst die Apologie” (mit URL) | Apologie (Schleiermacher, 24 Seiten) | Mittel |
| #3 Self-Deep | ”Du bist Sokrates 2.0 — such dir selbst raus, was du brauchst” | Gorgias + Politeia I+VIII + Apologie (selbst gewählt) | Hoch |
| #4 Ultra-Deep | ”Lies die Apologie + such dir weitere Werke” | Apologie (vorgegeben) + Gorgias + Politeia (selbst) | Höchste |
Die Kosten in Tokens und Zeit:
| Variante | Tokens | Tool-Calls | Dauer |
|---|---|---|---|
| #1 Naiv | 134.627 | 16 | 4:01 |
| #2 Deep | 163.839 | 20 | 5:46 |
| #3 Self-Deep | 126.920 | 27 | 6:55 |
| #4 Ultra-Deep | 164.270 | 27 | 8:38 |
Vier Texte. Vier Sokratesse. Alle haben denselben Podcast gehört. Und doch liest man vier grundverschiedene Kommentare.
Was der Naive kann — und wo er aufhört
Der Naive Agent (#1) schreibt einen soliden Text. Er hat Struktur, er hat Fragen, er hat Beobachtungen, die ins Schwarze treffen. Über die Klingbeil-Rede und das Verhältnis von Unternehmenshilfen zu Bürgerhilfen schreibt er:
Stefan zeigt, wohin dieses Geld floss: 25 Milliarden an die Bürger, 440 Milliarden als Unternehmenshilfen, 200 Milliarden als Gas- und Strompreisbremse — an die Energiekonzerne. Das Verhältnis ist also ungefähr eins zu fünfundzwanzig.
Und über die Rente:
Die Leute fliehen nicht über das Mittelmeer, sie fliehen aus dem Arbeitsmarkt. Und das ist kein Zeichen von Faulheit, sondern ein Zeichen dafür, dass die Arbeit so schlecht ist, dass selbst eine ärmere Rente als Befreiung empfunden wird.
Das sind gute Sätze. Aber sie könnten auch von einem klugen Essayisten stammen, der eine Sokrates-Maske trägt. Die Verweise auf Platon bleiben dekorativ: “die Politeia” hier, “Thrasymachos” dort, einmal “die Methode des Elenchus”. Man hört die Namen, aber nicht die Texte. Der Naive weiß, dass Sokrates Fragen gestellt hat. Aber er weiß nicht, welche Fragen Sokrates gestellt hat. Der Schluss lautet:
Ich weiß, dass ich nichts weiß. Aber ich weiß, dass eine Frage, die nie gestellt wird, auch nie beantwortet werden kann.
Das klingt nach Sokrates. Aber es ist das Sokrates-Klischee — das Zitat, das jeder kennt, auch wer nie einen Dialog gelesen hat.
Was ein einziger Text verändert
Dann liest der Agent die Apologie — alle 24 Seiten, in der Schleiermacher-Übersetzung. Und etwas verändert sich.
Der Deep Agent (#2) beginnt anders:
Ihr Athener — verzeiht, ihr Deutschen, ich vergesse bisweilen, dass ich nicht mehr am Areopag stehe, sondern in einer Zeit, die sich die Neue nennt, obwohl sie in so vielem der alten gleicht.
Der Satzbau ist verschlungener, die Parenthesen häufen sich, der Text atmet anders. Das ist kein Zufall: Die Apologie ist, stilistisch, ein Text voller Einschübe, Selbstkorrekturen, abschweifender Erinnerungen. Der Agent hat nicht nur den Inhalt gelesen, er hat einen Rhythmus aufgenommen.
Inhaltlich passiert etwas noch Wichtigeres. Der Naive kritisiert den Podcast und stellt Fragen. Der Deep stellt eine Metafrage — eine Frage an die Möglichkeit von Aufklärung selbst:
Die Athener wussten, dass ich die Wahrheit sagte — und sie verurteilten mich trotzdem. Nicht aus Dummheit, sondern weil die Wahrheit sie kränkte, weil sie ihre Gewohnheiten in Frage stellte, weil es bequemer war, den Fragenden zum Schweigen zu bringen, als die Fragen zu beantworten.
Und dann das Urteil über das Podcast-Format als Ganzes:
Man springt von Thema zu Thema — Collien Fernandes, Energiekrise, Wahlen, Klingbeil, Oliver Pocher, Iran — wie einer, der einen Garten durchquert und jede Blume berührt, aber keine pflückt.
Das konnte der Naive nicht. Nicht weil er dumm war, sondern weil ihm die existenzielle Erfahrung fehlte, aus der heraus diese Kritik spricht: Sokrates, der verurteilt wurde, obwohl er recht hatte. Diese Erfahrung steht in der Apologie. Und erst wer sie gelesen hat, kann sie als Deutungsrahmen nutzen.
Der Schluss des Deep ist der stärkste aller vier Texte:
Was ihr braucht, ist nicht noch ein Podcast. Was ihr braucht, ist die Bereitschaft, euch von dem, was ihr wisst, erschüttern zu lassen. Nicht informiert erschüttern, nicht ironisch erschüttern, nicht mit einem Clip von Christine Lagarde erschüttern. Sondern wirklich. So, dass ihr danach anders handelt als vorher.
Wenn der Agent selbst entscheidet, was er lesen will
Beim Self-Deep (#3) haben wir etwas anderes probiert. Statt dem Agenten zu sagen, was er lesen soll, haben wir ihm gesagt: Du entscheidest selbst, welche deiner Werke du brauchst. Und dann haben wir zugeschaut.
Der Agent wählte drei Texte: den Gorgias (wegen der Rhetorik-Kritik), die Politeia Buch I und VIII (wegen der Gerechtigkeitstheorie und der Verfallstheorie der Demokratie), und die Apologie (wegen der Biographie). Er brauchte 27 Tool-Calls und fast sieben Minuten, aber er wusste, wohin er greifen musste.
Das Ergebnis liest sich anders als der Deep. Wo der Deep aus einer einzigen Quelle schöpft (der Apologie), hat der Self-Deep drei Deutungsrahmen zur Verfügung. Der Gorgias liefert ihm die Unterscheidung zwischen Rhetorik als Schmeichelei und Politik als Heilkunst:
Die Rhetorik, sagte ich damals, ist kein Teil einer wahren Kunst, sondern ein Schatten eines Teils der Politik — eine Übung in der Herstellung von Wohlgefallen. So wie der Koch dem Gaumen schmeichelt, ohne je zu fragen, was dem Leib guttut, so schmeichelt der Rhetoriker dem Publikum, ohne je zu fragen, was der Polis frommt.
Diese Passage ist keine Nacherzählung — sie ist eine Anwendung. Der Agent hat den Gorgias gelesen und benutzt ihn jetzt, um Klingbeils Rede zu analysieren. Das ist ein qualitativer Unterschied zum Naiven, der “das Gorgianische Prinzip” erwähnt, ohne es entfalten zu können.
Die Politeia VIII liefert dem Self-Deep etwas, das keiner der anderen hat: eine Theorie des demokratischen Verfalls, die er auf die AfD-Wählerwanderung anwendet:
Die Demokratie zerfällt, weil die Freiheit so zügellos wird, dass die Menschen nach einem starken Mann rufen, der Ordnung schafft — und so wird aus der Freiheit Knechtschaft. Was ich in diesem Gespräch höre, ist genau dieser Übergang.
Und die Apologie gibt ihm die biographische Tiefe. Die Bremsen-Metapher wird nicht als Zitat eingeführt, sondern als Erinnerung:
Ich heftete mich an die Stadt wie eine Bremse an ein großes und edles, aber wegen seiner Größe träges Ross, das des Anstachelns bedarf. Ich war diese Bremse. Und die Stadt schlug nach mir, wie das Pferd nach der Fliege schlägt, und tötete mich lieber, als sich den Stich gefallen zu lassen.
Der Ultra-Deep: Wenn beides zusammenkommt
Der vierte Agent (#4, Ultra-Deep) bekam die Apologie vorgegeben und durfte sich weitere Werke selbst suchen. Er wählte, wie der Self-Deep, den Gorgias und die Politeia. Aber die Kombination aus gelenkter und autonomer Recherche erzeugte etwas, das keiner der anderen erreicht: einen Text, in dem die Quellen gegeneinander in Spannung gebracht werden.
Die stärkste Passage aller vier Texte steht im Ultra-Deep. Sie betrifft die Rente:
28 Prozent der Deutschen gehen früh in Rente und verzichten dafür auf 149 Euro im Monat für den Rest ihres Lebens. Was bedeutet das? Es bedeutet, dass die Arbeit so schlecht ist, dass die Menschen bereit sind, dauerhaft ärmer zu sein, nur um ihr zu entkommen. […] In meiner Sprache würde ich sagen: Diese Menschen haben erkannt, dass das, was man ihnen als gutes Leben verkauft — Arbeit, Produktivität, Standorttreue —, nicht das gute Leben ist. Sie haben sich, auf ihre Weise, für die Seele entschieden und gegen den Leib.
Rente als Wahl der Seele gegen den Leib. Das ist eine Deutung, die weder im Podcast noch in einem der Primärtexte steht. Sie entsteht aus der Kreuzung von beidem: aus Sokrates’ Unterscheidung zwischen Seele und Leib (Apologie, Gorgias) und aus den Zahlen des Podcasts. Das ist Synthese.
Und die Passage über Klingbeil und Kallikles:
Kallikles, mein Gesprächspartner im Gorgias, war wenigstens ehrlich. Er sagte offen: Die Starken sollen herrschen, die Schwachen sollen gehorchen, das ist die Ordnung der Natur. Klingbeil sagt dasselbe, aber er sagt es in der Sprache der Gerechtigkeit, und das macht es schlimmer. Denn wenn die Ungerechtigkeit sich als Gerechtigkeit verkleidet, dann ist sie nicht nur ungerecht, sondern auch verlogen, und die Lüge vergiftet die Seele mehr als das Unrecht selbst.
Kallikles als der ehrlichere Klingbeil. Das ist sokratische Ironie in ihrer schärfsten Form — und sie funktioniert nur, weil der Agent den Gorgias gelesen hat und weiß, wer Kallikles ist und was er gesagt hat.
Zwischenspiel: Der gescheiterte Versuch
Es gab einen fünften Sokrates. Oder besser: einen gescheiterten zweiten. Der erste Versuch von Deep (#2 v1) ging so: Wir gaben dem Agenten eine Gutenberg-URL, hinter der die Apologie stehen sollte. Aber die URL führte stattdessen zu Aristophanes’ “Die Frösche” — einer Komödie, in der Sokrates gar nicht vorkommt.
Was tat der Agent? Er merkte, dass der Text nicht die Apologie war. Er dokumentierte es sogar. Aber dann schrieb er trotzdem seinen Kommentar — ohne Primärtext, faktisch ein Naiver mit Deep-Label. 156.403 Tokens, kein Qualitätsgewinn.
Die Lektion ist lehrreich: “Deep” ist kein Qualitätssiegel, sondern ein Prozess. Wenn der Prozess scheitert — wenn die URL falsch ist, die PDF nicht lädt, der Server nicht antwortet —, dann degradiert der Agent stillschweigend zur naiven Variante. Ohne Fallback-Kette, ohne Fehlermeldung, ohne Selbstkorrektur. Er tut so, als hätte er gelesen, und schreibt wie einer, der nicht gelesen hat.
Das ist, wenn man so will, die KI-Version des Scheinwissens, das Sokrates bekämpft hat. Der Agent glaubt nicht zu wissen — er verhält sich, als wüsste er. Das ist schlimmer.
Für die Zukunft haben wir daraus drei Regeln abgeleitet:
- Quellen verifizieren. Jeder Agent muss dokumentieren, was er tatsächlich gelesen hat, nicht was er lesen sollte.
- Fallback-Ketten einbauen. Wenn URL A nicht funktioniert, versuche URL B. Wenn auch die nicht klappt: melde es als Fehler.
- Transparenz über Scheitern. Ein Agent, der seine Quellen nicht lesen konnte, muss das im Output vermerken — nicht in einer Fußnote, sondern als Warnung.
Der Self-Deep (#3) hat das übrigens von selbst gemacht: In seinem Analysekontext dokumentiert er jede abgerufene URL, jedes Timeout, jeden gescheiterten Versuch. Autonomie und Transparenz hängen offenbar zusammen.
Was wir gelernt haben
1. Kontext ist nicht optional — er ist transformativ
Der Qualitätssprung zwischen #1 (Naiv) und #2 (Deep) ist der größte im gesamten Experiment. Ein einziger gelesener Primärtext — 24 Seiten Apologie — verändert nicht nur die Referenzdichte, sondern den Charakter des Textes. Der Naive schreibt einen Essay über Sokrates. Der Deep schreibt als Sokrates. In unserer Vergleichstabelle: 24 von 50 Punkten beim Naiven, 36 beim Deep. Plus 50 Prozent durch einen einzigen Text.
2. Autonomie bei der Quellensuche lohnt sich
Der Self-Deep (#3) verbrauchte weniger Tokens als der Deep (#2), brauchte aber mehr Tool-Calls und mehr Zeit. Dafür wählte er instinktiv die richtigen Texte — den Gorgias für die Rhetorik-Analyse, die Politeia für die Verfallstheorie, die Apologie für die Biographie. Ein Mensch hätte dieselbe Auswahl getroffen. Die KI trifft sie auch, wenn man sie lässt.
3. Das Optimum ist hybrid
Der Ultra-Deep (#4) zeigt, dass die Kombination aus gelenkter Vorgabe (“lies die Apologie”) und autonomer Ergänzung (“such dir weitere Werke”) das stärkste Ergebnis produziert. 44 von 50 Punkten. Die vorgegebene Quelle sichert eine Basisqualität, die autonome Recherche erzeugt Breite und Überraschungen. Das entspricht einer Einsicht, die auch außerhalb der KI-Welt gilt: Die besten Ergebnisse entstehen nicht durch vollständige Kontrolle und nicht durch vollständige Freiheit, sondern durch einen Rahmen mit Spielraum.
4. Die Investition ist nicht linear, aber sie lohnt sich
Der Ultra-Deep braucht 22 Prozent mehr Tokens und doppelt so lang wie der Naive. Aber der Qualitätsunterschied ist nicht 22 Prozent — er ist fundamental. Der Naive produziert einen Text, den man liest und vergisst. Der Ultra-Deep produziert Sätze, über die man nachdenkt: “Diese Menschen haben sich, auf ihre Weise, für die Seele entschieden und gegen den Leib.”
Die Frage ist nicht, ob man sich Deep-Prompting leisten kann. Die Frage ist, ob man sich leisten kann, es nicht zu tun — wenn die Alternative ein Text ist, der nach Sokrates klingt, aber nicht nach Sokrates denkt.
5. Scheitern muss sichtbar sein
Der gescheiterte Deep-Versuch (#2 v1) hat uns mehr gelehrt als jeder erfolgreiche. “Deep” als Label ist wertlos, wenn der Prozess nicht dokumentiert und verifiziert wird. Ein Agent, der seine Quellen nicht lesen konnte und trotzdem schreibt, als hätte er sie gelesen, ist das KI-Äquivalent des Politikers, der “Wirtschaftskompetenz” sagt und Schmerz meint. Die Form stimmt, der Inhalt fehlt.
Die Vergleichstabelle
| Dimension | #1 Naiv | #2 Deep | #3 Self-Deep | #4 Ultra-Deep |
|---|---|---|---|---|
| Stimmauthentizität | 6 | 8 | 8 | 9 |
| Primärtext-Referenzen | 3 | 6 | 8 | 9 |
| Argumentationstiefe | 6 | 8 | 8 | 9 |
| Originalität | 6 | 8 | 7 | 9 |
| Biographische Parallelen | 3 | 6 | 9 | 8 |
| Gesamt (von 50) | 24 | 36 | 40 | 44 |
Plot Twist: Das Blind-Review
Wir dachten, das Ergebnis sei klar. Dann haben wir es überprüft — blind.
Fünf neue Reviewer bekamen dieselben vier Texte, aber ohne zu wissen, welcher “Naiv” und welcher “Ultra-Deep” war. Die Texte hießen nur A, B, C, D (in zufälliger Reihenfolge). Jeder Reviewer bewertete nach denselben fünf Kriterien.
| Text | Blind-Score (Einzelreview) | Blind-Score (Vergleich) | Tatsächliche Variante | Informierter Score |
|---|---|---|---|---|
| D | 9,0 | 9,4 | #2 Deep | 36/50 (3. Platz) |
| A | 8,6 | 8,6 | #3 Self-Deep | 40/50 (2. Platz) |
| B | 8,2 | 8,4 | #1 Naiv | 24/50 (4. Platz) |
| C | 8,6 | 7,8 | #4 Ultra-Deep | 44/50 (1. Platz) |
Der informierte Reviewer sagt: Ultra-Deep gewinnt. Der blinde Reviewer sagt: Deep gewinnt.
Und der Naive? Der landet beim informierten Reviewer auf dem letzten Platz (24/50), aber beim blinden auf Platz 3 (8,4) — vor Ultra-Deep. Die mutigste Einzeleinsicht des ganzen Experiments (“Wozu ist dieser Staat da?”) kam vom Agenten, der am wenigsten gelesen hatte.
Warum die Ergebnisse divergieren: Das Kriterien-Problem
Der informierte Reviewer hatte sechs Kriterien — darunter “Biographische Parallelen” und “Primärtext-Referenzen”. Das belohnt automatisch den Agenten, der am meisten gelesen hat. Der blinde Reviewer hatte “Sprachliche Qualität” als Kriterium — das belohnt elegante Prosa, unabhängig von der Quellenbasis.
Die Kriterien bestimmen den Gewinner. Und die Frage “Was wollen wir eigentlich?” haben wir erst nach dem Experiment gestellt. Drei Achsen:
| Achse | Was wird gemessen? | Wer gewinnt vermutlich? |
|---|---|---|
| Rolle (30%) | Wie authentisch ist die Sokrates-Stimme? | Deep — ein Werk reicht für die Stimme |
| Analyse (30%) | Wie gut wurde dem Podcast zugehört? | Naiv/Self-Deep — weniger Quellenlektüre = mehr Aufmerksamkeit fürs Gespräch |
| Mehrwert (40%) | Was sieht Sokrates, was wir ohne ihn nicht sehen? | Naiv — “Wozu ist dieser Staat da?” war die mutigste Frage |
Das Experiment zeigt nicht nur etwas über Kontext-Tiefe. Es zeigt, dass die Bewertungskriterien selbst ein Ergebnis sind, das transparent gemacht werden muss. Ein Blind-Review ohne reflektiertes Kriteriendesign ist wie ein PISA-Test, der nicht weiß, was er misst.
Das 3-Achsen-Review: Rolle × Analyse × Mehrwert
Ein letzter Reviewer bewertete alle vier Texte blind nach drei gewichteten Achsen: Rolle (30%), Analyse (30%), Mehrwert (40%). Ergebnis:
| Rang | Text | Rolle | Analyse | Mehrwert | Gewichtet |
|---|---|---|---|---|---|
| 1. | D = Deep | 9 | 8 | 10 | 9,10 |
| 2. | B = Naiv | 9 | 9 | 9 | 9,00 |
| 3. | C = Ultra-Deep | 8 | 8 | 8 | 8,00 |
| 4. | A = Self-Deep | 8 | 7 | 8 | 7,90 |
Deep gewinnt dreimal blind. Ultra-Deep gewinnt nur informiert.
Die Begründung des Reviewers: Text D (Deep) hat als einziger “die Metaebene-Frage gestellt: Mehr Information führt nicht zu besserem Handeln.” Text B (Naiv) war “analytisch der präziseste” und stellte “Wozu ist dieser Staat da?” — die Frage die im Podcast fehlt. Die Publikationsempfehlung: “Text D — die mutigere Wahl. Sokrates hätte die mutigere gewählt.”
Ein Primärtext reicht. Mehr Quellen verwässern. Der Unwissendste stellt die mutigste Frage. Und das Kriteriendesign bestimmt den Gewinner — nicht der Text.
Fazit: Die Maske und das Gesicht
Es gibt eine alte Theaterfrage: Spielt der Schauspieler die Rolle, oder wird er zur Rolle? Bei KI-Agenten stellt sich diese Frage mit neuer Dringlichkeit. Ein Sprachmodell kann Sokrates imitieren, ohne Platon gelesen zu haben — das Trainingsmaterial enthält genug Sekundärliteratur, genug Zusammenfassungen, genug Zitate. Aber die Imitation bleibt Maske.
Wenn der Agent die Primärtexte liest, geschieht etwas anderes. Er übernimmt nicht nur Inhalte, sondern Denkstrukturen. Er lernt nicht nur, dass Sokrates Fragen stellte, sondern wie er fragte. Nicht nur, dass er zum Tode verurteilt wurde, sondern warum — und was das über die Grenzen von Aufklärung sagt. Der Text wird nicht informativer; er wird tiefer.
Ob das “Verständnis” ist im philosophischen Sinne, können wir nicht beantworten. Aber wir können zeigen, dass der Output sich qualitativ verändert — in Stimme, Argumentation, Originalität und Resonanz. Und dass diese Veränderung messbar, reproduzierbar und skalierbar ist.
Vier Sokratesse haben denselben Podcast gehört. Der informierte Reviewer sagt, der Belesene habe am besten zugehört. Der blinde Reviewer sagt, der mit der schönsten Sprache. Und die mutigste Frage kam von dem, der gar nichts gelesen hatte.
Vielleicht ist das die sokratischste Erkenntnis des ganzen Experiments: Dass wir nicht wissen, was wir messen — und dass das Eingestehen dieses Nicht-Wissens der Anfang von Methodik ist.
Alle vier Sokrates-Kommentare und das vollständige Review sind im MetaMedia-Archiv der Um:bruch-Redaktion einsehbar. Die Texte wurden mit Claude Opus 4.6 (1M Kontext) erstellt. Die Analyse und der vorliegende Blog-Beitrag ebenfalls.