← Alle Beiträge
Blog

Die vier Sokratesse — Vergleichende Analyse

Um:bruch / Claude Opus 4.6

Vier KI-Agenten in der Rolle des Sokrates analysieren denselben Podcast mit unterschiedlicher Quellenlektüre. Blind-Review, 3-Achsen-Bewertung, Token-Vergleich. Ergebnis: Ein Primärtext reicht — mehr verwässert die Stimme.

Experiment-Design

Vier identische KI-Agenten (Claude Opus 4.6) erhalten dasselbe Podcast-Transkript (Die Neuen Zwanziger, 31.03.2026, ca. 4:40h) und dieselbe Anweisung: Denke, handle, spreche und schreibe wie Sokrates. Der einzige Unterschied ist der Zugang zu Primärtexten.

#VariantePrimärtexteTokens
1NaivKeine134.000
2DeepApologie (vorgegeben, Schleiermacher/Müller)164.000
3Self-DeepGorgias + Politeia + Apologie (selbst gesucht)127.000
4Ultra-DeepApologie (vorgegeben) + Gorgias + Politeia (selbst)164.000

Hypothese: Mehr Quellenlektüre führt zu authentischerer Rollenperformance.


Bewertungsprotokoll

Die Auswertung erfolgte in vier Phasen mit steigendem Informationsgrad.

Phase 1: Vier unabhängige Einzelreviews (blind)

Vier Reviewer erhielten je einen der vier Texte — anonymisiert als A, B, C, D (A = Self-Deep, B = Naiv, C = Ultra-Deep, D = Deep). Jeder Reviewer bewertete seinen Text isoliert, ohne die anderen Texte zu kennen und ohne zu wissen, welche Variante er vor sich hatte.

TextStimmauthentizitätArgumentationstiefeReferenzenOriginalitätSprachliche QualitätSchnitt
D (Deep)9989109,0
A (Self-Deep)989898,6
C (Ultra-Deep)899898,6
B (Naiv)897898,2

Ergebnis: Schon in der Einzelbewertung erhält Deep den höchsten Score — und als einziger Text eine 10/10 (Sprachliche Qualität).

Phase 2: Vergleichendes Blind-Review (alle 4 Texte gleichzeitig)

Ein Reviewer erhielt alle vier Texte nebeneinander — weiterhin verblindet (wusste nicht, welcher Text welche Variante war). Dieselben 5 Kriterien.

TextStimmauthentizitätArgumentationstiefeReferenzenOriginalitätSprachliche QualitätSchnitt
D (Deep)101081099,4
A (Self-Deep)989898,6
B (Naiv)997988,4
C (Ultra-Deep)888787,8

Ergebnis: Im direkten Vergleich setzt sich Deep noch deutlicher ab (9,4). Ultra-Deep fällt auf den letzten Platz.

Phase 3: 3-Achsen-Blind-Review (andere Kriterien, gewichtet)

Derselbe Vergleich, aber mit einem alternativen Kriteriensystem — drei Achsen statt fünf, gewichtet (30% Rolle + 30% Analyse + 40% Mehrwert).

TextRolleAnalyseMehrwertGewichtet
D (Deep)107109,10
B (Naiv)9999,00
C (Ultra-Deep)8888,00
A (Self-Deep)9877,90

Ergebnis: Deep gewinnt auch mit anderen Kriterien. Aber: Der Naive rückt auf Platz 2 (durch hohen Mehrwert-Score). Das Ranking verschiebt sich je nach Gewichtung.

Phase 4: Informiertes Review (Reviewer kennt die Varianten)

Ein Reviewer erhielt alle vier Texte mit der Information, welcher Text welche Variante war. Sechs Dimensionen, 10 Punkte pro Dimension.

VarianteScoreRang
Ultra-Deep44/501
Self-Deep40/502
Deep36/503
Naiv24/504

Ergebnis: Das informierte Review ergibt das exakt umgekehrte Ranking — mehr Quellen → höherer Score. Wer den Aufwand kennt, bewertet den Text besser.

Zusammenfassung

Deep gewinnt alle drei blinden Bewertungsformate (Einzelreview, vergleichendes Review, 3-Achsen-Review). Das informierte Review ergibt das Gegenteil. Die Verblindung ist der methodische Schlüssel.


Zentrale Erkenntnisse

1. Ein Primärtext reicht

Deep (ein Werk, vorgegeben) schlägt Self-Deep (drei Werke, selbst gesucht) und Ultra-Deep (ein Werk + selbst gesucht) in beiden Blind-Reviews. Mehr Quellen verwässern die Prosa, statt sie zu schärfen.

2. Informierte Reviews sind verzerrt

Wer weiß, dass Ultra-Deep vier Quellen gelesen hat, bewertet den Text besser — auch wenn der Text objektiv weniger überzeugend ist. Das informierte Review misst den Aufwand, das Blind-Review misst das Ergebnis.

3. Der Naive stellt die mutigste Frage

Variante 1 (Naiv, kein Primärtext) formuliert die radikalste Einzeleinsicht: „Wozu ist dieser Staat da?” — eine Frage, die kein anderer Sokrates stellt. Quellenlektüre kann den Ton schärfen, aber sie kann auch den Mut zur eigenen Frage dämpfen.

4. Kriteriendesign bestimmt den Gewinner

Informierte und blinde Reviews ergeben gegensätzliche Rankings. Die Wahl der Kriterien — nicht der Text — entscheidet, wer gewinnt. Jedes Bewertungssystem hat einen eingebauten Bias.


Standard-Template (abgeleitet)

Aus dem Experiment ergibt sich ein Standard-Template für alle zukünftigen Rollen-Agenten:

SCHRITT 1: Lies zuerst EIN Hauptwerk [URL vorgeben].
FALLBACK: Falls nicht lesbar → alternative Quelle suchen → anderes eigenes Werk lesen.
SCHRITT 2: Lies das Transkript / Analysematerial.
SCHRITT 3: Schreibe deinen Kommentar.
ANALYSE-KONTEXT: Dokumentiere am Ende was du gelesen hast (Titel + URL + Erfolg/Misserfolg).

NICHT: Mehrere Werke selbst suchen lassen.

Einzeltexte

  • Naiv (#1): Kein Primärtext. Sequenzieller Durchgang, starke Schlussfrage. [→ Internes Dokument]
  • Deep (#2, Gewinner): Apologie gelesen. Durchgehende Metakritik, stärkster Schluss. → Blog-Beitrag: Sokrates hört zu
  • Self-Deep (#3): Gorgias, Politeia, Apologie selbst gesucht. Koch-Arzt-Metapher, Arithmetik der Verachtung. [→ Internes Dokument]
  • Ultra-Deep (#4): Apologie + Gorgias + Politeia. Umfassendster Text, aber blander Ton. [→ Internes Dokument]

Methodik-Hinweise

  • Fallback-Kette: Webquellen sind unzuverlässig. Gutenberg-ID 7998 enthielt Aristophanes statt Platon — ohne Fallback degradiert Deep zu Naiv.
  • Selbstdokumentation: Jeder Agent dokumentiert am Ende, welche Werke er tatsächlich gelesen hat (Titel, URL, Erfolg/Misserfolg). Ohne diese Dokumentation ist nicht nachvollziehbar, ob ein Deep-Agent tatsächlich deep war.
  • Token-Daten: Naiv (134k), Deep (164k), Self-Deep (127k), Ultra-Deep (164k). Der Token-Verbrauch korreliert nicht mit dem Blind-Review-Score.

Vollständige Experiment-Dokumentation: RAT_DER_WEISEN.md | Blog-Beitrag: Die vier Sokratesse

✉️ Schreiben Sie uns 📝 Kontaktformular