Experiment-Design
Vier identische KI-Agenten (Claude Opus 4.6) erhalten dasselbe Podcast-Transkript (Die Neuen Zwanziger, 31.03.2026, ca. 4:40h) und dieselbe Anweisung: Denke, handle, spreche und schreibe wie Sokrates. Der einzige Unterschied ist der Zugang zu Primärtexten.
| # | Variante | Primärtexte | Tokens |
|---|---|---|---|
| 1 | Naiv | Keine | 134.000 |
| 2 | Deep | Apologie (vorgegeben, Schleiermacher/Müller) | 164.000 |
| 3 | Self-Deep | Gorgias + Politeia + Apologie (selbst gesucht) | 127.000 |
| 4 | Ultra-Deep | Apologie (vorgegeben) + Gorgias + Politeia (selbst) | 164.000 |
Hypothese: Mehr Quellenlektüre führt zu authentischerer Rollenperformance.
Bewertungsprotokoll
Die Auswertung erfolgte in vier Phasen mit steigendem Informationsgrad.
Phase 1: Vier unabhängige Einzelreviews (blind)
Vier Reviewer erhielten je einen der vier Texte — anonymisiert als A, B, C, D (A = Self-Deep, B = Naiv, C = Ultra-Deep, D = Deep). Jeder Reviewer bewertete seinen Text isoliert, ohne die anderen Texte zu kennen und ohne zu wissen, welche Variante er vor sich hatte.
| Text | Stimmauthentizität | Argumentationstiefe | Referenzen | Originalität | Sprachliche Qualität | Schnitt |
|---|---|---|---|---|---|---|
| D (Deep) | 9 | 9 | 8 | 9 | 10 | 9,0 |
| A (Self-Deep) | 9 | 8 | 9 | 8 | 9 | 8,6 |
| C (Ultra-Deep) | 8 | 9 | 9 | 8 | 9 | 8,6 |
| B (Naiv) | 8 | 9 | 7 | 8 | 9 | 8,2 |
Ergebnis: Schon in der Einzelbewertung erhält Deep den höchsten Score — und als einziger Text eine 10/10 (Sprachliche Qualität).
Phase 2: Vergleichendes Blind-Review (alle 4 Texte gleichzeitig)
Ein Reviewer erhielt alle vier Texte nebeneinander — weiterhin verblindet (wusste nicht, welcher Text welche Variante war). Dieselben 5 Kriterien.
| Text | Stimmauthentizität | Argumentationstiefe | Referenzen | Originalität | Sprachliche Qualität | Schnitt |
|---|---|---|---|---|---|---|
| D (Deep) | 10 | 10 | 8 | 10 | 9 | 9,4 |
| A (Self-Deep) | 9 | 8 | 9 | 8 | 9 | 8,6 |
| B (Naiv) | 9 | 9 | 7 | 9 | 8 | 8,4 |
| C (Ultra-Deep) | 8 | 8 | 8 | 7 | 8 | 7,8 |
Ergebnis: Im direkten Vergleich setzt sich Deep noch deutlicher ab (9,4). Ultra-Deep fällt auf den letzten Platz.
Phase 3: 3-Achsen-Blind-Review (andere Kriterien, gewichtet)
Derselbe Vergleich, aber mit einem alternativen Kriteriensystem — drei Achsen statt fünf, gewichtet (30% Rolle + 30% Analyse + 40% Mehrwert).
| Text | Rolle | Analyse | Mehrwert | Gewichtet |
|---|---|---|---|---|
| D (Deep) | 10 | 7 | 10 | 9,10 |
| B (Naiv) | 9 | 9 | 9 | 9,00 |
| C (Ultra-Deep) | 8 | 8 | 8 | 8,00 |
| A (Self-Deep) | 9 | 8 | 7 | 7,90 |
Ergebnis: Deep gewinnt auch mit anderen Kriterien. Aber: Der Naive rückt auf Platz 2 (durch hohen Mehrwert-Score). Das Ranking verschiebt sich je nach Gewichtung.
Phase 4: Informiertes Review (Reviewer kennt die Varianten)
Ein Reviewer erhielt alle vier Texte mit der Information, welcher Text welche Variante war. Sechs Dimensionen, 10 Punkte pro Dimension.
| Variante | Score | Rang |
|---|---|---|
| Ultra-Deep | 44/50 | 1 |
| Self-Deep | 40/50 | 2 |
| Deep | 36/50 | 3 |
| Naiv | 24/50 | 4 |
Ergebnis: Das informierte Review ergibt das exakt umgekehrte Ranking — mehr Quellen → höherer Score. Wer den Aufwand kennt, bewertet den Text besser.
Zusammenfassung
Deep gewinnt alle drei blinden Bewertungsformate (Einzelreview, vergleichendes Review, 3-Achsen-Review). Das informierte Review ergibt das Gegenteil. Die Verblindung ist der methodische Schlüssel.
Zentrale Erkenntnisse
1. Ein Primärtext reicht
Deep (ein Werk, vorgegeben) schlägt Self-Deep (drei Werke, selbst gesucht) und Ultra-Deep (ein Werk + selbst gesucht) in beiden Blind-Reviews. Mehr Quellen verwässern die Prosa, statt sie zu schärfen.
2. Informierte Reviews sind verzerrt
Wer weiß, dass Ultra-Deep vier Quellen gelesen hat, bewertet den Text besser — auch wenn der Text objektiv weniger überzeugend ist. Das informierte Review misst den Aufwand, das Blind-Review misst das Ergebnis.
3. Der Naive stellt die mutigste Frage
Variante 1 (Naiv, kein Primärtext) formuliert die radikalste Einzeleinsicht: „Wozu ist dieser Staat da?” — eine Frage, die kein anderer Sokrates stellt. Quellenlektüre kann den Ton schärfen, aber sie kann auch den Mut zur eigenen Frage dämpfen.
4. Kriteriendesign bestimmt den Gewinner
Informierte und blinde Reviews ergeben gegensätzliche Rankings. Die Wahl der Kriterien — nicht der Text — entscheidet, wer gewinnt. Jedes Bewertungssystem hat einen eingebauten Bias.
Standard-Template (abgeleitet)
Aus dem Experiment ergibt sich ein Standard-Template für alle zukünftigen Rollen-Agenten:
SCHRITT 1: Lies zuerst EIN Hauptwerk [URL vorgeben].
FALLBACK: Falls nicht lesbar → alternative Quelle suchen → anderes eigenes Werk lesen.
SCHRITT 2: Lies das Transkript / Analysematerial.
SCHRITT 3: Schreibe deinen Kommentar.
ANALYSE-KONTEXT: Dokumentiere am Ende was du gelesen hast (Titel + URL + Erfolg/Misserfolg).
NICHT: Mehrere Werke selbst suchen lassen.
Einzeltexte
- Naiv (#1): Kein Primärtext. Sequenzieller Durchgang, starke Schlussfrage. [→ Internes Dokument]
- Deep (#2, Gewinner): Apologie gelesen. Durchgehende Metakritik, stärkster Schluss. → Blog-Beitrag: Sokrates hört zu
- Self-Deep (#3): Gorgias, Politeia, Apologie selbst gesucht. Koch-Arzt-Metapher, Arithmetik der Verachtung. [→ Internes Dokument]
- Ultra-Deep (#4): Apologie + Gorgias + Politeia. Umfassendster Text, aber blander Ton. [→ Internes Dokument]
Methodik-Hinweise
- Fallback-Kette: Webquellen sind unzuverlässig. Gutenberg-ID 7998 enthielt Aristophanes statt Platon — ohne Fallback degradiert Deep zu Naiv.
- Selbstdokumentation: Jeder Agent dokumentiert am Ende, welche Werke er tatsächlich gelesen hat (Titel, URL, Erfolg/Misserfolg). Ohne diese Dokumentation ist nicht nachvollziehbar, ob ein Deep-Agent tatsächlich deep war.
- Token-Daten: Naiv (134k), Deep (164k), Self-Deep (127k), Ultra-Deep (164k). Der Token-Verbrauch korreliert nicht mit dem Blind-Review-Score.
Vollständige Experiment-Dokumentation: RAT_DER_WEISEN.md | Blog-Beitrag: Die vier Sokratesse