thomas-wodny.de
Wochenrückblick · Künstliche Intelligenz

Die Goldgräberzeit der
billigen Tokens ist vorbei.

KW 21 / 2026 18.–24. Mai 5 Hersteller · 11 Meldungen

Google macht Gemini 3.5 Flash dreimal teurer als seinen Vorgänger. Anthropic separiert ab 15. Juni die programmatische Claude-Nutzung von den Chat-Abos. Und auf der Code-with-Claude-Konferenz in London werden Managed Agents enterprise-tauglich: Self-Hosted Sandboxes, MCP Tunnels, Multi-Agent-Orchestrierung. Drei Signale, eine Botschaft — Agenten kommen in die Produktion, und der Anwender zahlt die Rechnung.

Preissprung Gemini 3.5 Flash gegenüber Gemini 3 Flash Preview
15. Juni
Anthropic separiert programmatische Nutzung von Chat-Subscriptions
900 Mio.
monatliche Gemini-Nutzer — Verdoppelung gegenüber Mai 2025
Anthropic
Konferenz Code with Claude London — Managed Agents enterprise-ready
Auf der zweitägigen Entwickler-Konferenz (20.–21. Mai) liefert Anthropic die Antwort auf die Compliance-Frage bei Agenten. Self-Hosted Sandboxes: Agent-Orchestrierung läuft weiter auf Anthropic-Infrastruktur, Tool-Execution wandert ins eigene Netzwerk — sensitive Dateien verlassen das Unternehmen nicht. MCP Tunnels verbinden private Model-Context-Protocol-Server hinter der Firewall. Plus Multi-Agent-Orchestrierung mit Lead-Agenten und Spezialisten auf gemeinsamem Filesystem.
Feature Dreaming — Agenten lernen zwischen Sessions
Scheduled-Process analysiert vergangene Agent-Läufe, erkennt Muster und kuratiert das Memory. Wiederkehrende Fehler, geteilte Workflows und Team-Präferenzen landen automatisch im persistenten Speicher. Plus Webhooks und strukturierte Outcomes-API für asynchrone Integration in Enterprise-Stacks.
Pricing-Umbau Programmatic raus aus Chat-Abo — ab 15. Juni
Agent SDK, GitHub Actions und Third-Party-Frameworks werden aus den Standard-Subscriptions herausgerechnet. Monatliche Credits in API-Preisen: Pro (20 $) erhält 20 $ Credits, Max 5x erhält 100 $, Max 20x erhält 200 $. Wer Claude Code ernsthaft programmatisch nutzt, kauft jetzt zweimal — Chat-Abo und Programmatic-Credits.
Deals KPMG-Allianz · Stainless-Acquisition
19. Mai: KPMG integriert Claude über die gesamte Belegschaft von 276.000 Mitarbeitern. 18. Mai: Anthropic übernimmt den SDK-Generator Stainless, der Type-Safe-Client-Libraries automatisch aus OpenAPI-Specs baut.
Google · DeepMind
Release Gemini 3.5 Flash — schneller, aber teurer
Am 20. Mai auf der I/O gelauncht. Pricing: 1,50 $ Input / 9 $ Output pro Million Tokens, Cached 0,15 $. Schlägt Gemini 3.1 Pro auf anspruchsvollen Benchmarks, 4x schneller im Output. Aber: Dreimal teurer als das alte Gemini 3 Flash Preview, sechsmal teurer als 3.1 Flash-Lite. Agentische Workflows mit mehr Turns fressen die Geschwindigkeitsersparnis pro Aufgabe wieder auf.
Pricing Ultra wird billiger, neuer Developer Tier
Gegenrichtung beim Top-Plan: Ultra sinkt von 250 $ auf 200 $/Monat. Neu im Portfolio: Developer Tier für 100 $/Monat, gezielt für Engineers und Power-User. Adoption: 900 Mio. monatliche Gemini-Nutzer, AI Overviews in Search erreicht 2,5 Mrd. Nutzer pro Monat.
Talent-Raid DeepMind kauft Contextual-AI-Team
Über 20 Forscher wechseln zu Google DeepMind im Rahmen eines 80–90 Mio. $ Lizenzdeals, inklusive Contextual-AI-CEO Douwe Kiela. Nach Inflection und Adept der nächste Acqui-Hire-Deal, der einen Wettbewerber leise aus dem Markt nimmt — Konsolidierung der Foundation-Model-Forschung in den Big-Tech-Häusern.
Release Gemini 3 Deep Think — Reasoning für Wissenschaft
Erweiterter Reasoning-Modus für Science-, Research- und Engineering-Probleme. Verfügbar in der Gemini-App für Ultra-Abonnenten und über die API für ausgewählte Forscher, Engineers und Enterprises.
OpenAI
Release Codex auf Mobile · Dell On-Prem-Partnerschaft
Codex zieht in die ChatGPT-Mobile-App: aktive AI-Workflows monitoren, Befehle freigeben, Tasks starten und Coding-Agenten remote überwachen — vom Smartphone aus. Parallel kündigt OpenAI am 19. Mai die Partnerschaft mit Dell Technologies an, um Codex in hybride und On-Premises-Enterprise-Umgebungen zu bringen.
Feature ChatGPT Personal Finance für Pro-User
Am 18. Mai für Pro-User in den USA aktiviert. Sichere Konto-Anbindung, Money-Dashboard und fundierte Finanz-Q&A auf eigenen Transaktionsdaten. Parallel: ChatGPT Business mit generell verfügbarem Goal Mode, Remote-Locked Computer Use und Shared Plugins für Workspace-Reuse.
xAI · Grok
Feature Grok Skills · Plattform-Konnektoren
18. Mai: Grok Skills — persistente Custom-Expertise, die sich über Conversations hinweg merkt. 22. Mai: Frische Konnektoren-Welle für Vercel (Deploy), Canva (Design), Gamma (Präsentationen) und S&P Global (Marktdaten). Plus Quality Mode in der Grok-Imagine-API mit höherem Realismus und besserer Text-Rendering, live für Enterprise-Developer.
Meta
Meilenstein Über 1 Mrd. Llama-Downloads · Security-Tools
Auf der LlamaCon meldet Meta den Sprung über eine Milliarde Llama-Downloads. Neue Open-Source-Schutz-Tools: Llama Guard 4, LlamaFirewall, Llama Prompt Guard 2. Llama-3.3-8B-Fine-Tuning-API für reduzierte Kosten bei Custom-Modellen. Stack-Erweiterung mit NVIDIA NeMo, IBM, Red Hat und Dell als Partnern.

Drei Bewegungen liegen diese Woche übereinander: Agenten verlassen die Demo-Phase, Token werden bei vergleichbarer Tier-Stufe wieder teurer, und die Talent-Konsolidierung in den großen Häusern beschleunigt sich.

Wer in 2024 Token-Budgets aus Demo-Preisen kalkuliert hat, schreibt sie diese Woche neu. Self-Hosted Sandboxes und MCP Tunnels lösen die Compliance-Bremse in regulierten Branchen — aber das Pricing macht klar, wer die Rechnung zahlt. Die offene Frage: Wie viele Mid-Tier-Subscriptions überleben, wenn Pro-User künftig zwei separate Rechnungen bekommen?