OpenAI Codex im Test: ChatGPTs Coding-Agent als Cloud-Mitarbeiter
OpenAI Codex ist 2026 zurück — als Cloud-Agent in der ChatGPT-Sidebar, als lokales CLI und als IDE-Plugin. Im Plus-Abo enthalten. Praxistest aus DACH-Marketing-Sicht: was es kann, was hakt, wer es wirklich braucht.
OpenAI hat den Namen Codex zweimal benutzt. Einmal 2021 — eine API für Code-Vervollständigung, die GitHub Copilot der ersten Generation antrieb und 2023 leise abgeschaltet wurde. Und einmal jetzt: seit Mai 2025 als Coding-Agent in ChatGPT, Anfang 2026 zur GA gereift, mit eigenem CLI, IDE-Extension und einem Cloud-Modus, der GitHub-Repositories autonom bearbeitet. Wer Codex aus der ersten Iteration kennt: vergiss das. Das hier ist ein anderes Produkt.
Was Codex 2026 ist, in einem Satz: ein Coding-Agent in drei Erscheinungsformen — Cloud (asynchron, im Browser oder in der ChatGPT-App), CLI (lokal im Terminal, Open Source), und IDE-Plugin (VS Code, Cursor, Windsurf). Alle drei greifen auf dasselbe Backend zu: GPT-5.4 und GPT-5.3-Codex, OpenAIs auf Coding spezialisierte Reasoning-Modelle. Und alle drei sind im ChatGPT Plus-Abo für 20 USD/Monat enthalten — kein Extra-Abo, keine Pay-per-Token-Abrechnung, solange du im Plus-Limit bleibst.
Ich teste Codex seit dem GA-Launch parallel zu Claude Code (meinem aktuellen Daily Driver). Erster Eindruck nach zwei Wochen: Codex ist kein Claude-Code-Klon, sondern eine andere Wette darauf, wie ein Coding-Agent aussehen sollte. Und für Marketing-Teams, die zum ersten Mal mit „echten" Coding-Agenten arbeiten wollen, gibt es konkrete Use-Cases, die auch ohne Dev-Hintergrund funktionieren.
Was Codex 2026 konkret kann
Drei Modi, drei Workflows:
1. Codex Cloud — der asynchrone Mitarbeiter. Du verbindest dein GitHub-Repo mit Codex, schreibst eine Aufgabe in natürlicher Sprache („Bau mir ein Kontaktformular mit Brevo-Anbindung", „Refactor das Newsletter-Cron in eine Workflow-DevKit-Variante"), und Codex spinnt sich einen isolierten Cloud-Container hoch, klont das Repo, arbeitet die Aufgabe durch und macht am Ende einen Pull Request. Du gehst Kaffee holen, kommst zurück, reviewst den PR. Mehrere Tasks parallel: möglich, jeder in seiner eigenen Sandbox.
2. Codex CLI — der lokale Pair-Programmer. Open Source auf GitHub, läuft im Terminal, hat Zugriff auf dein lokales Filesystem (mit OS-Level-Sandbox via macOS Seatbelt / Linux Landlock + seccomp). Vergleichbar mit Claude Code von der Mechanik her, aber spürbar token-effizienter — OpenAI behauptet 4× weniger Token-Verbrauch als Claude Code für gleiche Aufgaben. In meinen Tests waren es eher 2–3×, aber: ja, deutlich messbar.
3. Codex IDE Extension. VS Code, Cursor, Windsurf. Inline-Completion, Chat-Sidebar, Refactor-Vorschläge. Wer schon mit Cursor arbeitet, bekommt eine zweite Engine, die parallel zu Cursors eigenem Modell läuft. Sinnvoll, wenn du an Cursor gewöhnt bist und nur das Modell wechseln willst.
Drei zusätzliche Features, die im GA dazukamen und Codex von der Konkurrenz absetzen:
Skills — vordefinierte Workflows, die Codex auf wiederkehrende Aufgaben spezialisieren. Beispiele: „Code Understanding" (lies dieses Repo und schreib mir ein ARCHITECTURE.md), „Documentation" (Doku auf Stand bringen), „Prototyping" (von einem Figma-Mockup zu einem ersten React-Prototyp). Skills sind Templates, die du anpassen und teilen kannst.
Automations — Codex arbeitet unaufgefordert. Du konfigurierst Trigger („wenn ein neues GitHub-Issue mit Label bug erstellt wird", „wenn ein CI-Run fehlschlägt"), und Codex bearbeitet die Aufgabe selbständig. Issue-Triage, Alert-Monitoring, CI/CD-Fixes — Sachen, die in einem Marketing-Tech-Stack sonst manuelles Drüberschauen brauchen.
Cloud + CLI + IDE als ein Konto. Du startest eine Aufgabe im CLI, lässt sie in der Cloud weiterlaufen, reviewst den PR im IDE-Plugin. Der Kontext geht nicht verloren. Das ist eine Integration, die Claude Code aktuell nicht hat — Anthropic hat zwar ein eigenes Cloud-Angebot, aber es ist nicht so nahtlos verzahnt.
Performance — und die Token-Effizienz-Frage
Codex CLI hat auf Terminal-Bench 2.0 im aktuellen Stand 77,3 % gegen 65,4 % bei Claude Code — wenn dein Workflow Terminal-nah ist (DevOps, Scripts, CLI-Tools), schlägt Codex messbar. Auf SWE-bench drehen die beiden Modelle Runde um Runde, mit Claude aktuell knapp vorne bei den hochwertigsten Pull-Request-Benchmarks. Heißt im Klartext: für reine Code-Korrektheit auf großen Codebasen ist Claude Opus 4.7 weiterhin der Goldstandard, für agentische Terminal-Workflows liegt Codex vorn.
Die Token-Effizienz ist der eigentlich spannende Punkt. GPT-5.4 hat bis zu 1,05 Mio. Token Kontext (default 272K, Long-Context per Flag freischaltbar) und 128K Max-Output. Claude Opus 4.7 mit dem 1M-Context-Modus liegt nominal gleichauf. Aber: GPT-5.4 schreibt knapper. Wo Claude erst seinen Plan verbalisiert, dann implementiert, dann zusammenfasst, geht Codex direkter zur Sache. Für Power-User mit hohem Token-Verbrauch heißt das: bei gleichem Plus-Abo bekommst du mit Codex mehr Aufgaben durchs Limit als mit Claude Pro. Wenn dein Setup eines der beiden bevorzugt, hat das oft weniger mit „besser" und mehr mit „passender Kommunikationsstil" zu tun.
Pricing & Limits
ChatGPT Plus (20 USD/Monat): Codex Cloud + CLI + IDE inkludiert. Pro 5-Stunden-Fenster ungefähr 30–150 Messages an GPT-5.3-Codex, abhängig von Komplexität und Output-Länge. Für die meisten Solo-Marketer und kleine Teams reicht das.
ChatGPT Pro (100 USD/Monat): 5× das Plus-Limit (durch Aktion bis 31. Mai 2026: 10×). Wer Codex Cloud ernsthaft als asynchronen Mitarbeiter einsetzt, kommt mit Plus schnell an Limits — Pro ist dann der natürliche Sprung.
ChatGPT Business / Edu / Enterprise: Codex inkludiert, dazu Admin-Controls für Team-Setups, SSO, Audit-Logs, Zero-Data-Retention-Optionen. Der DACH-Compliance-Pfad.
API-Zugang: für Token-Power-User außerhalb der Abos zugänglich, mit transparenter Pro-Token-Abrechnung. Hier wird's für Marketing-Teams in der Regel schnell unrentabel — bleib bei einem der Abos, solange du nicht Pipeline-mäßige Auslastung hast.
Was am Pricing gut ist: Plus reicht real für die meisten Teams. Wer ChatGPT Plus eh schon abonniert hat (Stand 2026: viele DACH-Marketing-Abteilungen), bekommt Codex obendrauf, ohne neue Budget-Genehmigung. Das ist der größte Adoption-Hebel, den OpenAI gezogen hat.
Was hakt: die Limits sind opak. „30–150 Messages pro 5h" ist eine Spanne, keine Garantie. Bei komplexen Cloud-Tasks brennen die schneller als bei kurzen IDE-Completions. Plane das mit ein, wenn du Codex in einen Workflow einbaust, der nicht abstürzen darf.
Drei DACH-Marketing-Use-Cases die wirklich passen
Erstens: Custom Internal Tools. Du brauchst ein internes Dashboard, das eine API von Brevo, eine Tabelle aus dem CRM und einen Slack-Webhook in einem Interface zusammenbringt. Früher: Aufgabe für Dev-Team, sechs Wochen Vorlauf. Mit Codex Cloud: du beschreibst die Anforderung, gibst ihm Zugriff auf ein leeres Repo, kommst nach einer Stunde zurück und hast einen funktionierenden Next.js-Prototyp als PR. Marketing-affines Tech-Lead: ja, du brauchst jemanden, der den PR reviewen und mergen kann. Aber die 80% Erstimplementierung ist weg.
Zweitens: Skript-Automation für Content-Operations. WordPress-Posts in MDX-Dateien konvertieren, GSC-Daten an Sitemap-Prioritäten anflanschen, Newsletter-Issues von Brevo nach lokal syncen. Klassische Glue-Code-Aufgaben, die in einem Marketing-Stack ständig anfallen. Codex CLI ist hier ein „Junior-Developer auf Abruf", der die Skripte schreibt, ohne dass du dafür jemanden einstellen musst.
Drittens: Automations als Marketing-Cron. Das ist der unerwartete Use-Case. Du konfigurierst eine Codex-Automation: „Jeden Montag um 9 Uhr, prüfe die GSC-Klicks der letzten 7 Tage, identifiziere Posts mit über 20 Prozent Drop, schick mir eine Slack-Nachricht mit den URLs und ersten Hypothesen." Codex baut sich das Skript, deployed es als Worker, läuft. Was früher entweder ein Zapier-Stack mit fünf Steps oder ein eigenes n8n-Setup war, ist jetzt ein Auftrag in natürlicher Sprache an einen Agenten.
Was nicht passt: alles, wo du keinen Code anfassen willst, auch indirekt. Codex ist ein Coding-Agent. Der PR landet in einem GitHub-Repo, der CLI-Output ist Code. Wenn du keinen Entwickler im Team hast, der die Outputs reviewen und deployen kann, bleib bei No-Code-Tools wie Make, n8n oder Zapier. Codex schließt die Lücke „ich bin technisch, aber kein Vollzeit-Entwickler" — wer komplett dev-frei arbeiten will, ist hier falsch.
Codex vs. Claude Code vs. Cursor vs. Copilot
Gegen Claude Code: das eigentlich relevante Duell für 2026. Claude Code ist tiefer im Repo, hat 26 programmierbare Hook-Events für feinkörnige Sicherheits- und Workflow-Kontrolle, und Anthropics Modelle sind aktuell auf den hochwertigsten Code-Benchmarks knapp vorn. Codex ist breiter aufgestellt — Cloud + CLI + IDE als ein Produkt, mit Skills und Automations als Extra. Wer maximale Qualität pro Pull Request will, geht zu Claude Code. Wer breitere Automation und ChatGPT-Integration will, geht zu Codex. Beide für 20 USD/Monat im Abo.
Gegen Cursor: Cursor ist eine ganze IDE, Codex ist ein Plugin. Cursor hat das bessere UX-Polish (Tab-Completion, Composer, Agent Mode native im Editor), Codex hat das Cloud-Backend. Wer Cursor liebt: Codex-Plugin obendrauf statt Switch — das Plus-Abo lohnt allein wegen der Cloud-Tasks.
Gegen GitHub Copilot: Copilot ist 2026 weiterhin gut für Inline-Completion, aber der „Agent Mode" hinkt Codex und Claude Code messbar hinterher. Microsoft mischt Modelle (Anthropic, OpenAI, eigene), das macht Copilot diplomatisch, aber kein Specialist. Wer Copilot Business eh hat, braucht Codex nicht zwingend — aber für komplexere Aufgaben ist Codex der bessere Agent.
Limits + wo es noch hakt
Codex Cloud ist langsamer als ein Mensch bei kleinen Tasks. „Schreib mir ein zweizeiliges Bash-Skript" dauert in der Cloud 90 Sekunden — bis Container hochfährt, Repo geklont ist, Modell geladen. Lokal mit dem CLI bist du schneller. Cloud lohnt erst ab Aufgaben, die du sowieso nicht in zwei Minuten selbst schreibst.
Multi-Repo-Workflows sind unbeholfen. Codex Cloud arbeitet pro Task auf einem Repo. Wenn deine Aufgabe „passe das Frontend-Repo + das Backend-Repo + das Schema-Repo aneinander an" ist, musst du das in drei Tasks aufteilen oder einen Monorepo-Workaround bauen. Claude Code mit Worktrees handhabt das eleganter.
Die ChatGPT-App-Integration auf iOS/Android ist hübsch, aber begrenzt. Du kannst Codex-Tasks vom Handy starten und reviewen, aber komplexere PR-Reviews willst du am Desktop machen. Mobile-First-Coding ist 2026 noch nicht da.
Long-Context-Modus ist Opt-in. Default sind 272K Token. Wer ein 1.000-Datei-Repo komplett in den Kontext laden will, muss explizit umschalten — und merkt dann, dass bestimmte Plan-Limits anders zählen. Lies das Kleingedruckte deines Tarifs.
„30–150 Messages pro 5h" ist Marketing-Sprech für „weiß keiner". Bei komplexen Aufgaben mit 50K+ Token-Output brennt das schneller als gedacht. Plane Pro statt Plus ein, wenn du Codex Cloud als seriöses Workflow-Element einsetzt.
Mein Fazit: wer's nutzen sollte
Nutz Codex, wenn du: schon ChatGPT Plus abonniert hast und einen Coding-Agenten willst, ohne nochmal 20 USD bezahlen zu müssen. Wenn du breite Workflows von Issue-Triage über Skripte bis zu Custom-Tools abdecken willst und ein integriertes Cloud+CLI+IDE-Setup willst. Wenn du token-effizient sein musst, weil du an deinem Plan-Limit kratzt. Wenn du in einem Microsoft/OpenAI-Stack arbeitest und nicht zu Anthropic wechseln willst.
Lass die Finger davon, wenn du: maximale Code-Qualität pro PR brauchst — dann Claude Code. Wenn du fine-grained Sicherheits-Hooks für Compliance-Cases brauchst — dann Claude Code. Wenn du gar keinen Code anfassen willst, auch nicht indirekt über PR-Reviews — dann no-Code-Tools statt Coding-Agent. Wenn dein Team auf Multi-Repo-Workflows angewiesen ist und Cloud-Sandboxen nicht reichen.
Codex ist 2026 das beste „mitgelieferte" Coding-Tool im ChatGPT-Abo — und die Bundle-Strategie macht es zum Default für alle, die OpenAI eh schon nutzen. Es ist nicht das beste Coding-Tool 2026 (das bleibt Claude Code für Hardcore-Devs), aber es ist das niedrigschwelligste. Für Marketing-Teams, die ihren ersten Coding-Agenten ausprobieren wollen, ohne neue Budget-Diskussion, ist Codex die richtige Wahl. Für Power-User, die das letzte Prozent Code-Qualität wollen, bleibt Claude Code im Daily-Driver-Slot.
Mein Setup aktuell: Claude Code als Daily Driver für komplexe Repo-Arbeit, Codex Cloud als asynchroner Junior-Mitarbeiter für „Set & forget"-Tasks parallel. Beide für je 20 USD/Monat — und die Kombination ist mehr als die Summe der Teile.