Tokenmaxxing: Warum US-Konzerne KI-Token-Konsum belohnen
Meta-Mitarbeitende verbrennen 60 Billionen Tokens in 30 Tagen. Amazon trackt jeden Claude-Call. Whittemore verteidigt das als R&D auf Mitarbeiter-Ebene. Was die Daten zeigen — und wo das Argument bricht.
Bei Meta haben Mitarbeitende in 30 Tagen rund 60 Billionen Tokens verbrannt. Das sind, zum öffentlich verfügbaren Anthropic-Preis gerechnet, ungefähr 9 Milliarden US-Dollar an reinem Inference-Aufwand — auf einem internen Leaderboard namens "Claudeonomics", das die 250 verbrauchsstärksten Beschäftigten nach Titeln wie "Token Legend" und "Cache Wizard" rangierte. Zuckerberg selbst schaffte es nicht in die Top 250. Im April 2026 hat Meta das Dashboard offline genommen — nachdem The Information und Fortune darüber berichtet hatten.
Das Phänomen hat einen Namen: Tokenmaxxing. Erfunden in einer FT-Story über Amazon, übernommen vom Rest der Tech-Presse, jetzt offiziell die Debatte des Frühlings 2026. Auf der einen Seite steht Nathaniel Whittemore, Host des AI Daily Brief, der in seinem Mai-Beitrag "In Defense of Tokenmaxxing" die Praxis verteidigt. Auf der anderen Seite Reportagen aus NYT-Umfeld, FT und The Information, plus die Aggregat-Daten von Wirtschaftsforschenden, die einen empirisch unbequemen Befund parat haben. Schauen wir uns das nüchtern an — was passiert da wirklich, warum, und was bedeutet das für deutsche Marketing-Teams.

Was Tokenmaxxing konkret ist
Der Begriff bezeichnet die Praxis, in der Unternehmen den Token-Verbrauch ihrer Mitarbeitenden über KI-Tools messen, bewerten und teilweise belohnen — explizit oder implizit. "Token" meint hier die Recheneinheit, die Claude, GPT, Gemini & Co. pro Interaktion abrechnen. Mehr Tokens = mehr Interaktion mit dem Modell = (so die These) mehr Lernen, mehr Experimentieren, mehr produktive Outputs.
Den schärfsten öffentlichen Ton dazu setzte Nvidia-CEO Jensen Huang, mehrfach zitiert in Tom's Hardware: Er wäre "deeply alarmed", wenn ein Engineer mit 500.000 Dollar Jahresgehalt nicht mindestens 250.000 Dollar an Tokens konsumieren würde. Damit ist der Maßstab gesetzt: Token-Budget als Anteil am Gesamtgehalt.
Welche US-Konzerne das wirklich machen
Es lohnt sich, hier sauber zu trennen — nicht jeder Konzern macht das Gleiche, und die Presse wirft die Modelle gerne in einen Topf.
Stufe 1 — Hartes Mandat, im Performance-Review verankert. Tobi Lütkes Shopify-Memo vom 7. April 2025 gilt als Startschuss. Kernsatz: "Reflexive AI usage is now a baseline expectation at Shopify." Manager:innen müssen seitdem schriftlich begründen, warum eine offene Stelle nicht durch KI ersetzt werden kann. Meta zieht ab 2026 nach: Ein internes Memo der Head of People, Janelle Gale, macht "AI-driven impact" zum offiziellen Review-Kriterium (The Information, Feb 2026). Beide Unternehmen ziehen KI-Nutzung also explizit ins Gehalts- und Karrieresystem.
Stufe 2 — Tracking ohne offizielles Review-Gewicht, aber sichtbar. Amazon ist hier der Hauptakteur. CEO Andy Jassys Juni-2025-Memo an die Belegschaft kündigt offen an, dass KI die "total corporate workforce reduzieren" werde. Intern misst das System MeshClaw, mit welcher Frequenz Developer KI nutzen — das Ziel ist eine Wochen-Aktivquote von über 80 %. Offiziell flössen die Daten nicht ins Review; Mitarbeitende sagen aber, "Managers are looking at it" (FT, via Fortune Mai 2026). Genau aus dieser Berichterstattung stammt der Begriff "Tokenmaxxing" überhaupt erst. Meta gehörte vor der Abschaltung des Claudeonomics-Boards ebenfalls in diese Stufe.
Stufe 3 — Tools bereitgestellt, kein Tracking. Visa hat seit 2023 GenAI für die ganze Belegschaft, Copilot-Lizenzen für die "vast majority", über 500 interne GenAI-Apps, 10.000+ AI-trainierte Mitarbeitende — aber kein öffentlich bekanntes Mandat. Disney hat DisneyGPT und Jarvis intern ausgerollt, Bob Iger framt KI als Effizienzhilfe ohne Workforce-Drohung. Wer von Tokenmaxxing spricht, meint nicht diese Stufe.
Was Whittemore eigentlich verteidigt
Whittemore bestreitet nicht, dass Meta's Claudeonomics-Spielereien zum Karikatur-Material taugen. Sein Argument läuft eine Ebene tiefer: Wir befinden uns gerade im Übergang von assistiver zu agentischer KI. Sein Wortlaut:
"From assisted AI (AI helping you do the things you do) to agentic AI (your job is to set up the conditions for agents to do things)."
In dieser Welt — so Whittemore — ist klassische Output-Metrik kein guter Produktivitäts-Indikator mehr. Was zählt, ist Experimentier-Volumen: Wie oft probiert jemand, eine Aufgabe an einen Agenten zu delegieren, scheitert, lernt, baut den Workflow um. Token-Verbrauch ist eine schmutzige, aber richtige Proxy für diese Experimentier-Bereitschaft. Wörtlich:
"Do not be afraid of burning tokens on valuable mistakes."
"Incentivizing experimentation is R&D translated to the unit level."
Sein Hauptvorwurf an die Skeptiker-Berichterstattung: Selection Bias. NYT, FT und The Information zitieren überproportional die Beschäftigten, die das Tracking belastet — weil die mit Journalist:innen sprechen. Die zufriedenen Power-User, die ihre Workflows konkret verbessern, tauchen nicht auf. Das ist methodisch fair als Beobachtung — aber, wie wir gleich sehen, nicht die ganze Geschichte.
Wo das Argument trotzdem bricht
Drei Punkte, an denen Whittemores Verteidigung Risse bekommt.
1. Goodhart's Law ist empirisch belegbar — nicht nur theoretisch. Sobald Tokens zur Zielgröße werden, hören sie auf, ein gutes Maß zu sein. Bei Amazon berichten Mitarbeitende der FT, sie würden sinnlose Code-Deployments, E-Mail-Triagen und Slack-Bots starten, um die Zahlen zu treffen. Whittemore räumt diesen Punkt selbst ein und verweist auf Salesforce, das stattdessen mit einer outcome-basierten Metrik arbeitet (Axios, April 2026). Wenn die intelligenteste Tokenmaxxing-Verteidigung in der Bewegung schon nach einer besseren Alternative ruft, ist die These nicht ganz so robust, wie sie klingt.
2. Die Aggregat-Daten sind unbarmherzig. Whittemores Selection-Bias-Vorwurf zielt auf Einzelinterviews. Aber: Ein NBER-Working-Paper vom Februar 2026 hat 6.000 Executives in vier Ländern befragt — rund 90 % berichten keine messbare KI-Wirkung auf Beschäftigung oder Produktivität in den letzten drei Jahren. Das ist keine zusammengeklaubte Anekdotensammlung, das ist eine repräsentative Erhebung. MIT-Wirtschaftsnobelpreisträger Daron Acemoglu flankiert den Befund: "We're using it too much for automation and not enough for providing expertise" (MIT Sloan Management Review). Wenn der Macro-Effekt nicht messbar ist, hat der Token-Verbrauchs-Proxy ein konzeptionelles Problem.
3. Der Well-Being-Schatten. David Autor (MIT) zitiert in Issues in Science and Technology ein AI-Materialwissenschafts-Experiment: 82 % der beteiligten Wissenschaftler:innen meldeten einen Rückgang ihres Well-Beings — trotz höherer Entdeckungsrate. Das ist Kategorie (a) aus der Skepsis-Forschung: "macht meinen Job schlechter". Tokenmaxxing optimiert die Output-Seite und ignoriert die Mensch-Seite — und Marketing-Teams arbeiten erfahrungsgemäß nicht über lange Strecken gegen ihre eigene Motivation.
Wie wir das auf snipki erleben
Wir messen auf snipki, unserer KI-Weiterbildungsplattform, sehr wohl den Token-Verbrauch der Teilnehmenden. Nicht zur Belohnung, sondern als Lern-Indikator — und der Befund deckt sich mit Whittemores Grundthese, allerdings mit einer entscheidenden Nuance:
- Power-User probieren wirklich mehr. Die Teilnehmenden, die im Lernumfeld den höchsten Token-Verbrauch haben, sind statistisch tatsächlich die, die später in der Abschlussübung selbständig kleine Agenten bauen können. Whittemores Experimentier-Argument trifft auf der individuellen Lern-Ebene zu.
- Aber: Volumen ist kein Skill-Beleg. Wir sehen genauso Teilnehmende mit hohem Token-Verbrauch, die denselben Prompt zwanzigmal leicht variieren und nichts dabei lernen. Ohne Outcome-Layer (in unserem Fall: bestandene Übungsaufgaben) ist die Token-Zahl nur ein Aktivitäts-Signal.
- Der Übergang zur Agenten-Logik ist real. Die Lernpfade, die heute am meisten Nachfrage haben, drehen sich nicht mehr um "wie schreibe ich einen besseren ChatGPT-Prompt", sondern um "wie verkette ich drei Tools zu einem Workflow". Das ist exakt die Verschiebung, die Whittemore beschreibt — wir sehen sie täglich.
Heißt für ein Unternehmen: Wer Token-Verbrauch trackt, sollte ihn immer an Outcome-Daten koppeln (abgeschlossene Tickets, ausgelieferte Features, gewonnene Deals) — nicht standalone bewerten. Sonst belohnst du Aktivität, nicht Wirkung.
Was das für deutsche Marketing-Teams heißt
Drei pragmatische Schlüsse für DACH-Teams, die das Tokenmaxxing-Thema bei der nächsten Strategieklausur ehrlich einordnen wollen:
- Importiert nicht die schlechteste Version. Das US-Mandat-Modell (Shopify, Meta) skaliert in deutschem Arbeitsrecht und mitbestimmter Unternehmenskultur ohnehin schwer. Wer KI-Nutzung in Ziele schreibt, sollte sie an Output-Outcome koppeln — nicht an Tool-Frequenz. Sonst hast du in zwölf Monaten ein Aktivitäts-Theater wie Amazon und keine produktiveren Teams.
- Aber: Die Verschiebung ist echt. Marketing-Arbeit wird in den kommenden zwei Jahren weniger "ich nutze ChatGPT als bessere Suchmaschine" und mehr "ich orchestriere drei Agenten, die eine Kampagne durchspielen". Wer als Team-Lead das nicht aktiv einübt, fällt zurück. Da hat Whittemore recht.
- Eure Knappheit ist nicht Token-Volumen, sondern Übung. Ein deutsches Marketing-Team gibt heute typisch zwischen 30 und 200 Euro pro Person und Monat für KI-Lizenzen aus — Token-Budgets sind nicht das Problem. Das Problem ist, dass die meisten Teams diese Tools für die zehnte Variante eines Briefings nutzen, statt für Workflow-Experimente. Genau dort lohnt ein gezielter Lernpfad — siehe KI-Tool-Landschaft 2026 und der praktische Einstieg in Claude Code für Marketing-Teams.
FAQ zu Tokenmaxxing
Was bedeutet Tokenmaxxing? Die Praxis von Unternehmen, den Token-Verbrauch ihrer Mitarbeitenden über KI-Tools systematisch zu messen, sichtbar zu machen oder explizit zu belohnen. Der Begriff wurde im Mai 2026 in einer FT-Reportage über Amazons internes Tracking-System MeshClaw geprägt.
Welche Unternehmen machen das wirklich? Belegt sind: Shopify (KI im Performance-Review seit Apr 2025), Meta (Claudeonomics-Leaderboard bis Apr 2026, "AI-driven impact" als Review-Kriterium ab 2026), Amazon (MeshClaw, Wochen-Aktivquote >80 %). Visa und Disney stellen KI bereit, ohne öffentlich bekannte Mandate.
Belohnt Tokenmaxxing wirklich Skill — oder nur Aktivität? Empirisch eher Aktivität als Skill. Bei Amazon berichten Mitarbeitende der FT, dass sie sinnlose Automatisierungen anstoßen, um Zahlen zu treffen — der klassische Goodhart-Effekt. Salesforce setzt deshalb auf eine outcome-basierte Metrik statt auf reine Token-Counts.
Was sagt der Macro-Befund? Eine NBER-Erhebung (Feb 2026) unter 6.000 Executives in vier Ländern zeigt: rund 90 % der Firmen sehen keine messbare KI-Wirkung auf Beschäftigung oder Produktivität in den letzten drei Jahren. Der Token-Verbrauch korreliert auf Macro-Ebene also (noch) nicht mit messbarem Output.
Kommt Tokenmaxxing nach DACH? In dieser harten US-Form vermutlich nicht — deutsches Arbeitsrecht, Betriebsräte und Mitbestimmung machen Performance-Reviews auf Basis von Tool-Nutzungs-Telemetrie heikel. Was kommt, ist die Verschiebung Richtung agentische Workflows — und damit der Druck, dass Teams Agenten-Kompetenz aufbauen. Das ist ein Skill-Thema, kein Tracking-Thema.
Wo finde ich Whittemores Original-Argument? Im AI Daily Brief vom 13. Mai 2026: "In Defense of Tokenmaxxing", zusätzlich als Video auf YouTube.
Worauf es ankommt
Tokenmaxxing als Begriff wird das Jahr nicht überleben — als Phänomen wird er bleiben. Die Token-Leaderboards verschwinden vermutlich genauso schnell, wie sie aufgetaucht sind (Meta hat das Vorbild schon geliefert), die zugrundeliegende Verschiebung ist aber real. Wer als Marketing-Verantwortliche:r in den nächsten 18 Monaten nicht baut, wird sich später mit Teams konfrontiert sehen, die einzelne Tools bedienen können, aber keine Workflows orchestrieren. Das ist die echte Lücke — nicht ein zu niedriger Token-Counter.
Wenn ihr im Team gerade überlegt, wie ihr Agenten-Kompetenz strukturiert aufbaut — ohne in Tokenmaxxing-Theater zu verfallen — schreib mir kurz, was bei euch ansteht. Ich antworte werktags innerhalb von 24 Stunden.