jens.marketing
KI-MarketingBlog

KI automatisiert 16 % echter Freelance-Jobs – wie viel davon ist dein Alltag?

Jens Polomski9 min
Worum es geht

Der Remote Labor Index misst KI-Agenten an echten, bezahlten Freelance-Aufträgen. In acht Monaten stieg die Automatisierungsrate von 2,5 auf 16,1 %. Welche Marketing-Tasks jetzt unter Druck stehen und welche nicht.

Kategorie · KI-MarketingTag · KI-MarketingVeröffentlicht · 2026
Im Detail

Es gibt hunderte KI-Benchmarks, und die meisten messen, wie gut ein Modell Multiple-Choice-Fragen beantwortet. Der Remote Labor Index (RLI) von CAIS und Scale AI macht etwas anderes: Er gibt KI-Agenten 240 echte Freelance-Aufträge, mit Original-Briefing, Budget und einem von Profis erstellten Vergleichs-Deliverable, und lässt anschließend menschliche Prüfer bewerten, ob ein Kunde das Ergebnis abgenommen hätte.

Am 1. Juli hat CAIS die neuen Zahlen veröffentlicht, und der Sprung ist deutlich größer, als ich nach dem letzten Update erwartet hätte.

Remote Labor Index · Automatisierungsrate bestes Modell
2,5 %0,0 %

Von 2,5 % (Oktober 2025, bestes Modell: Manus) auf 16,1 % (Juli 2026, Claude Fable 5), laut CAIS „mehr als vervierfacht in unter acht Monaten“. Zwischenwerte veröffentlicht das Institut nicht.

Was der Remote Labor Index wirklich misst

Kurz zur Methode, denn an ihr hängt, was die 16 % wert sind:

  • 240 echte Projekte von Upwork-artigen Plattformen, Gesamtwert rund 144.000 $. Durchschnittlicher Projektwert: 632,60 $, im Median 11,5 Stunden menschliche Arbeitszeit.
  • 23 Kategorien, darunter Grafik- & Editorial-Design, Video & Animation, Audio, Branding & Logo, Präsentationsdesign, Datenanalyse und Marktforschung, also ziemlich viel von dem, was Marketing-Teams täglich einkaufen.
  • Bewertet wird von drei unabhängigen menschlichen Prüfern pro Projekt, per Mehrheitsentscheid, bei 94,4 % Übereinstimmung. Bestanden ist nur, was ein „vernünftiger Kunde“ abnehmen würde.

CAIS hat parallel getestet, ob man die Bewertung auch einer KI überlassen kann, und dabei überschätzten die LLM-Richter die Modelle um das 2,3- bis 2,9-Fache. Wenn dir also jemand KI-Output als „geprüft“ verkauft und der Prüfer war selbst eine KI, lohnt sich ein genauer Blick.

2,34 $durchschnittliche KI-Kosten pro Deliverable, bei 632,60 $ durchschnittlichem Projektwert
94,4 %Übereinstimmung der menschlichen Prüfer (3 pro Projekt)
218/240Projekte, auf denen die 16,1 % basieren. Der Rest fiel in die Fable-5-Sperrphase

Transparenz-Hinweis: Die 16,1 % von Claude Fable 5 basieren auf 218 der 240 Projekte: Während der Auswertung wurde der Zugang zum Modell durch die US-Exportkontrollen gesperrt. CAIS zufolge sind die fehlenden 22 Projekte gleichmäßig über Kategorien und Schwierigkeit verteilt. Wer die Zahl zitiert, sollte das trotzdem dazusagen.

Die Rangliste: Der Abstand nach oben ist massiv

Das zweitbeste Modell liegt bei der Hälfte, das drittbeste bei gut einem Drittel — und vor einem Jahr wäre trotzdem jede einzelne dieser Zahlen eine Schlagzeile gewesen.

RLI-Leaderboard · Juli 2026

Anteil vollständig automatisierter Freelance-Projekte

Claude Fable 5
16,10 %
Claude Opus 4.8
8,33 %
Codex / GPT-5.5
6,25 %
Opus 4.6 (Cowork)
4,17 %
Opus 4.5 (thinking)
3,75 %
Manus 1.6 (Max)
2,92 %
Gemini 3 Pro
1,25 %

Quelle: Scale AI Labs, RLI-Leaderboard · Stand 01.07.2026. Bewertung: bestanden = menschliche Prüfer würden das Deliverable als Kunde abnehmen (Note 2 oder 3 auf 3er-Skala).

Welche Arbeit fällt zuerst?

Der RLI veröffentlicht keine Automatisierungsraten pro Kategorie; falls du also irgendwo eine liest, ist sie erfunden. Qualitativ beschreibt CAIS die Erfolge so: Automatisiert wurden „überwiegend kreative Projekte mit Audio- und Bildgenerierung (etwa Soundeffekte oder Logos) sowie einige Daten- und Schreibprojekte (etwa Report-Erstellung)“.

Härtere Zahlen gibt es aus Deutschland, denn das DIW Berlin hat über eine Million Freelance-Ausschreibungen vor und nach dem ChatGPT-Start verglichen:

DIW Berlin · Nachfrageänderung nach ChatGPT-Start

Freelance-Ausschreibungen nach Kategorie (Juli 2021 – Juli 2023)

Texte / Writing
−30,4 %
Software / Web-Dev
−20,6 %
Grafik-Design
−18,5 %
3D-Modeling
−15,5 %
Engineering
−10,4 %

Quelle: DIW Wochenbericht 35/2024, Difference-in-Differences über 1 Mio.+ Ausschreibungen. Kontrollgruppe: manuelle Tätigkeiten.

Interessant ist die zweite Hälfte derselben Studie, die kaum jemand zitiert: Die verbleibenden Aufträge wurden komplexer (+2,2 %), die Budgets stiegen (+5,7 %), und pro Job bewarben sich 8,6 % mehr Freelancer. Übersetzt heißt das: Die einfachen Aufträge verschwinden zuerst, während sich um die verbleibenden, besser bezahlten inzwischen mehr Leute bewerben.

Check: Wie viel deines Task-Boards ist betroffen?

Wähl aus, was bei euch regelmäßig anfällt. Die Einstufung folgt der Evidenz oben (RLI-Kategorien, DIW-Zahlen, RLI-Ausschlüsse) und nicht meinem Bauchgefühl — Prozentwerte pro Task wirst du hier deshalb nicht finden, weil sie schlicht keine Quelle hätten.

Interaktiv · Task-Check

Welche deiner Marketing-Tasks stehen unter Automatisierungsdruck?

Anklicken zeigt die Evidenz-Basis pro Task.

Noch nichts ausgewählt. Klick dich durch dein Task-Board.

Einstufung basiert auf RLI (CAIS/Scale, Juli 2026) und DIW Wochenbericht 35/2024. Keine Prognose, keine Einzelfall-Beratung.

Was KI hier (noch) nicht kann

Drei Dinge, die in den Schlagzeilen zur 16-Prozent-Zahl fehlen:

  • 84 % der Projekte scheitern weiterhin, laut Original-Paper meist an mangelhafter Qualität, unvollständigen oder defekten Dateien und Konsistenzfehlern.
  • Der RLI misst außerdem nur Solo-Arbeit: Projekte mit Kundeninteraktion, Teamarbeit oder laufender Abstimmung sind ausgeschlossen, also genau das, was Inhouse-Marketing von Freelance-Gigs unterscheidet.
  • Die Ökonomie ist trotzdem brutal, denn 2,34 $ KI-Kosten stehen 632,60 $ durchschnittlichem Projektwert gegenüber. Bei den 16 %, die funktionieren, reden wir über einen Preisunterschied von Faktor 270.

Genau diese Kombination (meistens scheitert es, aber wenn es klappt, ist es 270-mal billiger) erklärt die DIW-Zahlen von oben: Wo KI-Output als Rohfassung reicht, bricht die Nachfrage ein, während die Budgets dort steigen, wo jemand den Kontext kennen und das Ergebnis verantworten muss.

Was das für dein Team heißt

Ich halte nichts von „KI ersetzt dich nicht, aber jemand mit KI“-Kalenderweisheiten, denn die Daten sagen etwas Präziseres: Die Ausführung wird automatisiert, während das Urteilsvermögen teurer wird. Daraus ergeben sich für mich drei konkrete Schritte:

  • Task-Board auditieren statt Berufsbilder diskutieren. Die Frage ist nicht „ist Social Media Manager sicher?“, sondern welche der neun Tasks oben bei euch die Woche füllen, und genau dafür ist der Check gedacht.
  • Abnahme-Kompetenz aufbauen. Wenn LLM-Richter um Faktor 2 bis 3 danebenliegen, ist die wertvollste neue Fähigkeit im Team, KI-Output schnell und sicher zu beurteilen. Das ist lernbar, und es ist das Gegenteil von „Prompt-Tricks sammeln“. Wie sich Rollen dafür sortieren, habe ich im Beitrag zu den fünf Rollen im KI-Marketing-Team aufgeschrieben.
  • Agenten kontrolliert testen, bevor es der Praktikant heimlich tut. Wie KI-Agenten arbeiten und wo ihre Kosten explodieren (Tokenmaxxing lässt grüßen), gehört ins offizielle Enablement. Sonst landet es in der heimlichen KI-Nutzung.

Und wenn du gerade überlegst, wie dein Team diese Beurteilungskompetenz systematisch aufbaut: Dafür gibt es strukturierte Wege, von Selbstlernen bis Workshop.

Was du als Nächstes tun kannst

Wie viel eures Task-Boards ist automatisierbar, und was macht ihr mit der frei werdenden Zeit? Genau diese Frage gehe ich mit Marketing-Teams in Workshops durch: Task-Audit, Pilot-Auswahl, Abnahme-Prozesse.

Schreib mir kurz, was bei euch ansteht — ich antworte werktags innerhalb von 24 Stunden.

Mehr Beiträge in deinem Posteingang

Wöchentlich filtere ich, was zählt.

Über 45.000 Marketer:innen lesen den KI-Newsletter. Kein Hype, keine Affiliate-Kaskade — nur das, was wirklich weiterhilft.

Newsletter abonnieren