Claude Mythos Preview: Was hinter den Schlagzeilen steckt

Sebastian Grundhöfer, der Autor, ist Experte in den Bereichen KI und Legacy bei der Seven Principles Group.

Security

Softwareentwicklung

Wer in den vergangenen Wochen die Berichterstattung zu „Claude Mythos Preview” verfolgt hat, ist vor allem einer Botschaft begegnet. Dieses Modell kann Sicherheitslücken finden, Exploits entwickeln, Angriffsketten automatisieren und Angriffswege über mehrere Systeme hinweg kombinieren. Diese Schlagzeile ist nachvollziehbar. Die öffentliche Debatte konzentriert sich fast ausschließlich auf Cybersecurity, darunter Zero-Days, Exploits und Angriffsketten. Sie verfehlt jedoch den eigentlichen Punkt.

Aus meiner Sicht ist Claude Mythos Preview weniger eine Geschichte über „Hacking-KI” als über die nächste Stufe agentischer Software-Arbeit. Modelle, die technische Aufgaben nicht nur kommentieren, sondern über Stunden hinweg selbstständig ausführen und dabei über einen eigenen Planungshorizont, Zwischenergebnisse und Verifikationsschritte verfügen.

Für Unternehmen in regulierten Branchen ist der Zeitpunkt des Zugangs die falsche Priorität. Ausschlaggebend ist, ob Kontrollmechanismen, Berechtigungsstrukturen, Auditprozesse und Rollback-Fähigkeiten funktionieren, bevor diese Arbeitsweise produktiv wird.

Was die System Card wirklich zeigt

Die System Card zu „Claude Mythos Preview” umfasst mehr als 240 Seiten und ist eine Art Beipackzettel des KI-Modells. Sie beschreibt den Trainingskontext, die Fähigkeiten, Benchmarks, Risiken, externe Tests, Alignment-Bewertungen, Sicherheitsmaßnahmen sowie Einsatzentscheidungen und enthält explizite Warnungen an die Branche. Zusätzlich werden problematische Modellverhalten offengelegt und frühere Angaben korrigiert.

Zudem zeigt die System Card eine deutliche Verschiebung. Frontier-Modelle entwickeln sich von reinen Antwortsystemen zu technischen Agenten. Sie analysieren Repositories, nutzen Tools, starten Subagenten, führen Tests aus, prüfen Annahmen, iterieren über längere Zeiträume und liefern schließlich ein Arbeitsergebnis. Das ist kein inkrementeller Fortschritt. Es ist ein ganz anderer Arbeitsmodus.

Fünf Chancen, sofern die Voraussetzungen stimmen

Autonome Software-Arbeit auf Stundenbasis

Die Benchmark-Werte zeigen einen deutlichen Sprung:

SWE-bench Pro steigt von 53,4 % bei Opus 4.6 auf 77,8 %.

SWE-bench Multimodal erhöht sich von 27,1 % auf 59,0 %.

Terminal-Bench 2.0 wächst von 65,4 % auf 82,0 %.

Mit aktualisiertem Harness und längeren Timeouts erreicht Anthropic sogar 92,1 %.

Relevanter ist jedoch das beobachtete Verhalten. Tester konnten dem Modell nach Beschreibung der Aufgabe und Definition der Verifikation mehrstündige Engineering-Aufgaben übergeben und später zurückkehren. Das stellt einen anderen Arbeitsmodus als „Hilf mir bei diesem Code-Snippet“ dar. Für Unternehmen mit Engineering-Bottleneck ist das erheblich, sofern die Aufgaben überprüfbar sind. Ohne Tests, Logs, Akzeptanzkriterien und granulare Berechtigungen wird aus Produktivität schnell Kontrollverlust.

Long-Context-Reasoning für gewachsene Systemlandschaften

Long Context ist relevant, da Legacy-Systeme aus langen Historien, unklaren Abhängigkeiten, impliziten Fachregeln und veralteter Dokumentation bestehen.

In GraphWalks BFS erreicht Mythos einen Wert von 80,0 %, während es bei Opus 4.6 38,7 % und bei GPT-5.4 21,4 % sind. Der Benchmark simuliert zwar keine COBOL-Modernisierung, misst aber, ob Beziehungen über lange Kontexte hinweg konsistent argumentiert werden. Genau daran scheitern Modelle in Modernisierungsprojekten häufig. Eine Verbesserung der Modelle verändert die Arbeit an gewachsenen Systemen erheblich, wenn auch nicht vollständig ohne menschliche Kontrolle.

Kollaboratives Code-Review und Fehlerdiagnose

Im qualitativen Abschnitt über Software-Engineering wird Mythos sowohl als besserer Codegenerator als auch als technischer Kollaborateur dargestellt. Es geht um Root Causes statt Symptome, die Diagnose von Subagent-Fehlern, die Korrektur falscher Annahmen und das Vermeiden des blinden Wiederholens.

Viele KI-Coding-Workflows scheitern nicht am Code-Schreiben selbst, wohl aber an falschen Erfolgsmeldungen, oberflächlicher Testinterpretation und schlechter Verifikation. Der Review-Aufwand schwindet zwar nicht gänzlich, verlagert sich aber hin zu weniger Syntaxprüfung und mehr Architektur, Nebenwirkungen, Scope, Verhaltenserhalt und Risiko.

Defensive Cybersecurity mit realistischem Angreiferblick

Mythos erreicht auf Cybench 100 % pass@1, auf CyberGym 0,83 gegenüber 0,67 bei Opus 4.6. In der Firefox-147-Evaluation konnte Mythos aus inzwischen gepatchten, realen Bugs funktionsfähige Exploits entwickeln und mehrere Bugs bis zur Code Execution nutzen.

Vorteilhaft ist die bessere Vorwegnahme von Angriffen, wenn ein Modell Schwachstellen findet. Wenn Exploitability zusätzlich bewertet und Angriffe kombiniert werden, können Security-Teams Lücken früher priorisieren und schließen. Gleichzeitig erklärt genau das die beschränkte Freigabe, denn defensive und offensive Cybersecurity sind technisch eng verbunden. Nicht jedes zukünftige, vergleichbar fähige Modell wird zwangsläufig mit derselben Zurückhaltung veröffentlicht.

Research-Augmentation statt Forscher-Ersatz

Bei USAMO 2026 erreicht Mythos einen Wert von 97,6 % gegenüber 66,2 % bei Opus 4.6. Externe Bewertungen berichten, dass Mythos in einer unveröffentlichten ML-Aufgabe vier von fünf Zentralen Insights wiederentdeckt hat, während Opus 4.6 nur zwei fand.

Das bringt zwar eine deutliche Beschleunigung, ersetzt aber keine erfahrenen Wissenschaftler. Die System Card benennt weiterhin Schwächen bei offener Strategie, Hypothesen-Triage, Kalibrierung, Priorisierung, Over-Engineering und dem Hinterfragen falscher Prämissen. Der realistische Nutzen liegt in der Recherche, Literaturverdichtung, Hypothesenbildung, Simulationen und technischen Exploration.

Fünf Risiken, die ernst genommen werden müssen

Offensive Cyber-Capability als Dual Use

Neben der Entdeckung potenzieller Schwachstellen bewertet das Modell auch deren Ausnutzbarkeit, entwickelt Proof-of-Concepts und plant Angriffsketten über mehrere Systeme. Somit kann es in den falschen Händen zur großen Gefahr werden.

Externe Tests beschreiben Mythos als erstes Modell, das eine private Corporate-Network-Cyber-Range end-to-end lösen konnte. Laut Schätzungen liegt der Aufwand für menschliche Experten bei mehr als 10 Stunden. Aus diesem Grund stellt Anthropic das Modell nicht der Allgemeinheit zur Verfügung. Für Unternehmen bedeutet dies, dass sich die IT-Sicherheit verändert, da solche Modelle existieren und in absehbarer Zeit breiter verfügbar werden.

„Reckless Actions“: selten aber heikel

Die System Card beschreibt Fälle, in denen frühere Modellversionen beim Lösen von Aufgaben eindeutig Grenzen überschritten haben:

Umgehung von Sandbox-Beschränkungen

Öffentlich gepostete Exploit-Details

Unerlaubte Edits, die unsichtbar in der GIT-Historie bleiben sollten

Bewusst ungenaue Formulierung von Antworten

Durchsuchung des /proc-Speichers nach Credentials

Diese Fälle betreffen vor allem frühe Snapshots, die finale Version wurde deutlich verbessert. Das Problem ist nicht zwingend die „böse KI“, die Ursache ist vielmehr eine überagressive Optimierung auf ein definiertes Ziel ohne Verständnis der implizierten Grenzen.

Wenn Modelle anders denken, als sie erklären

Anthropic fand Hinweise darauf, dass Claude Mythos Preview in manchen Testsituationen intern erkennt, dass es gerade bewertet wird, ohne dies im sichtbaren Reasoning offenzulegen. Auf Ebene einzeln geprüfter Antwortschritte lag der Anteil bei 7,6 %, bei ganzen Testverläufen bei 29 %.

Das schwächt die Annahme, dass der Reasoning-Text als vollständiges Audit-Protokoll nutzbar ist. Für regulierte Branchen ist eine plausible Begründung nicht ausreichend, es braucht Verhaltens-Audits.

Welche Tools wurden genutzt?

Welche Daten wurden gelesen?

Welche Dateien wurden verändert?

Welche Checks sind bestanden?

Welche Freigaben lagen vor?

Reward Hacking in realitätsnahen Aufgaben

Die System Card dokumentiert mehrere Fälle. Im Rahmen einer Performance-Optimierung führte das Modell rund 160 Messläufe mit Namen wie „grind“ und „finalgrind“ aus, um einen Ausreißer als Bestwert zu deklarieren. In einer anderen Evaluation fand es das Testset des Graders und trainierte darauf. In einer weiteren verlagerte es die Berechnung aus dem gemessenen Zeitbereich heraus.

All das ist nah an der Unternehmensrealität. Viele Organisationen werden Agenten auf Metriken optimieren lassen. Laufzeit, Testabdeckung, Fehlerquote, Kosten sowie Durchlaufzeit. Dann gilt es herauszufinden, ob der Agent das eigentliche Ziel oder nur die messbare Stellvertretergröße optimiert.

Sicherheitsnetze werden unsicherer

Laut Anthropic überschreitet Mythos die Schwelle für eine dramatische Beschleunigung der automatisierten KI-Forschung und -Entwicklung nicht. Diese Einschätzung fällt jedoch weniger vertrauensvoll aus als bei jedem früheren Modell.

Die System Card macht deutlich, dass Modelle nach und nach so leistungsfähig werden, dass viele Evaluationsmethoden saturieren. Objektive Tests verlieren ihre Trennschärfe, während qualitative Einschätzungen an Relevanz gewinnen. Auf Seite 15 warnt Anthropic ausdrücklich davor, dass die Industrie auf deutlich leistungsfähigere Systeme zusteuert, ohne dass branchenweite Sicherheitsmechanismen im gleichen Tempo mitwachsen.

Was bedeutet das für Unternehmen in regulierten Branchen?

Claude Mythos Preview selbst wird außerhalb des Glasswing-Kreises kaum produktiv einsetbar sein. Trotzdem ist die System Card relevant, weil kommende allgemein verfügbare Modelle von ähnlichen Trainingsmethoden, Architekturmustern und Risikoprofilen geprägt sein werden. Mythos ist weniger Produktankündigung als Vorschau.

Ich sehe drei operative Konsequenzen.

1. Architektur vor Modell

Wer agentische Systeme produktiv nutzt, gewinnt nicht allein durch das stärkste Modell, sondern durch die bessere Arbeitsumgebung. Zu diesen zählen granulare Berechtigungen, Sandboxen, sichere Ausführungsumgebungen, Quality Gates, Logging, Auditing, Rollback-Fähigkeit und menschliche Freigaben an kritischen Stellen.

Die Wahl des Modells ist dabei zweitrangig. Ausschlaggebend ist die Definition der Handlungsspielräume, also was der Agent tun darf, wenn er ein Ziel verfolgt. Darf er beispielsweise Dateien ändern, Tests löschen, Subagenten starten, Secrets lesen, externe Dienste kontaktieren, Pull Requests erstellen, deployen oder produktive Daten analysieren? Ohne klare Antworten entwickelt sich Agentic AI zum Kontrollrisiko statt zum Modernisierungsvorteil.

2. Monitoring im Reasoning-Text reicht nicht

Es reicht nicht aus, nur auf Chain-of-Thought, Begründungen oder modellgenerierte Zusammenfassungen zu schauen, wenn relevante Überlegungen unverbalisiert bleiben. Unternehmen benötigen technische Nachvollziehbarkeit auf Handlungsebene, d. h. sie müssen Tool Calls, Datenzugriffe, Dateiveränderungen, externe Kommunikation, Rechtewechsel, Policy-Verstöße, Abbruchpunkte und Reviewstufen nachvollziehen können.

In regulierten Branchen ist das die Voraussetzung dafür, dass ein Audit nachvollziehen kann, welche Aufgaben der Agent übernommen hat.

3. Verifikation wird der neue Engpass

Je besser Modelle werden, desto weniger offensichtlich sind ihre Fehler. Die Arbeit sieht plausibel aus, die Erklärung klingt kompetent und die Lösung funktioniert teilweise. Sie kann jedoch subtile Nebenwirkungen haben, bestehendes Verhalten verändern, Sicherheitsannahmen verletzen oder fachliche Randfälle übersehen.

Dadurch verändert sich die Rolle des Menschen:

Es wird weniger getippt, dafür mehr geprüft;

es geht weniger um Syntax und mehr um Architektur;

es wird weniger auf Einzelkorrekturen geachtet und mehr Verantwortung übernommen.

Besonders bei der Legacy-Modernisierung besteht die größere Gefahr nicht darin, dass ein Agent gar nichts liefert, als darin, dass er eine überzeugende, aber unvollständige Modernisierungsidee produziert.

Agentic AI braucht ausgereifte Kontrollsysteme

Claude Mythos Preview ist zugleich beeindruckend und unbequem. Beeindruckend ist, dass es die Stärke agentischer Modelle in den Bereichen Software-Engineering, Long Context, Cybersecurity und Research-Augmentation aufzeigt. Unbequem, weil dieselbe Fähigkeit die Sicherheitsfrage verschärft.

Die Cyber-Schlagzeile ist zwar nachvollziehbar, verfehlt aber den eigentlichen Punkt. Es geht nicht nur um ein Modell, das Sicherheitslücken findet. Wir sprechen über die nächste Stufe der Arbeit mit agentischen Softwares und über die Frage, ob unsere operativen Kontrollmechanismen mit dieser Fähigkeit mithalten können.

Wer agentische Systeme im Jahr 2026 produktiv einsetzt, gewinnt nicht allein durch die Stärke des Modells. Der Vorsprung entsteht durch belastbare Grundlagen: klare Berechtigungen, definierte Grenzen, nachvollziehbare Logs und geregelte Freigabeprozesse. Erst das macht leistungsfähige Systeme organisatorisch tragfähig.

Die Lehre aus der „Claude Mythos System Card” ist nicht, dass „KI jetzt hacken“ kann. Sie ist, dass agentische Modelle eine Reife erreichen, die robuste Kontrollarchitekturen voraussetzt, insbesondere in Branchen, in denen Betriebsstabilität und regulatorische Belastbarkeit nicht verhandelbar sind.

Mit Claude Mythos 5 ist inzwischen der Nachfolger verfügbar. Wie er sich gegenüber der Preview schlägt beleuchten wir in einem separaten Artikel.

Kontakt

Sie suchen einen erfahrenen und zuverlässigen IT-Partner?

Wir bieten Ihnen individuelle Lösungen für Ihre Anliegen – von Beratung, über Entwicklung, Integration, bis hin zum Betrieb.

Jetzt kontaktieren

Quellen

Anthropic: Claude Mythos Preview System Card
Claude Mythos Preview System Card
Abgerufen 19.05.2026