
Warum wir von ChatGPT auf Claude umgestiegen sind – und was wir dabei über LLMs gelernt haben
TL;DR: „Nach 18 Monaten ChatGPT sind wir auf Claude umgestiegen. Nicht weil ChatGPT schlecht ist – sondern weil Claude bei Coding, langen Dokumenten und Tool-Nutzung via MCP besser zu unserer Arbeitsweise passt. Hier ist der ehrliche Vergleich."
— Till FreitagDie ehrliche Wahrheit: ChatGPT war gut – Claude ist besser für uns
Vorab: Das ist kein Claude-Fanboy-Post. ChatGPT hat uns 18 Monate lang gute Dienste geleistet. GPT-4 war ein Game-Changer, GPT-4o hat die Geschwindigkeit gebracht, und GPT-5 ist ein beeindruckendes Modell.
Aber irgendwann haben wir gemerkt: Für die Art, wie wir arbeiten, passt Claude besser. Hier ist die ehrliche Analyse – inklusive aller großen LLMs, die wir getestet haben.
Was wir mit AI machen (und warum das wichtig ist)
Bevor man LLMs vergleicht, muss man wissen, wofür man sie nutzt. Unsere Use Cases:
- Code schreiben & reviewen – Lovable-Projekte, monday.com Apps, Make-Szenarien, Edge Functions
- Lange Dokumente analysieren – Verträge, Ausschreibungen, SOPs (oft 50–100 Seiten)
- Content erstellen – Blog-Artikel, Proposals, E-Mail-Sequenzen
- Tool-Nutzung – CRM abfragen, Daten anreichern, Workflows auslösen (via MCP)
- Strategie & Sparring – Geschäftsmodelle durchdenken, Architektur-Entscheidungen validieren
Der große Vergleich: Alle relevanten LLMs im Detail
Tier 1: Die Flaggschiffe
| Kriterium | Claude Sonnet 4.6 | GPT-5 | Gemini 2.5 Pro | GPT-5.2 |
|---|---|---|---|---|
| Coding | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Lange Texte | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| Reasoning | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Tool Calling | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| Natürlichkeit | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ |
| Context Window | 200k (1M Opus) | 128k | 1M+ | 128k |
| Preis (Input/1M) | ~$3 | ~$10 | ~$1.25 | ~$12 |
| Preis (Output/1M) | ~$15 | ~$30 | ~$10 | ~$40 |
| MCP-Support | Nativ | Über Tools | Eingeschränkt | Über Tools |
| EU-Hosting | ✅ | ❌ | ❌ | ❌ |
Tier 2: Die Preis-Leistungs-Könige
| Kriterium | Claude Haiku 3.5 | GPT-5-mini | Gemini 2.5 Flash | DeepSeek R1 |
|---|---|---|---|---|
| Coding | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| Geschwindigkeit | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ |
| Preis (Input/1M) | ~$0.80 | ~$2 | ~$0.15 | ~$0.55 |
| Preis (Output/1M) | ~$4 | ~$8 | ~$0.60 | ~$2.19 |
| Für wen | Bulk-Tasks, Klassifikation | Allrounder, günstig | Höchste Token/$ | Open Source, On-Prem |
Tier 3: Die Spezialisten
| Modell | Stärke | Schwäche | Unser Urteil |
|---|---|---|---|
| Mistral Large | EU-nativ, DSGVO, mehrsprachig | Kleineres Ökosystem | Gut für EU-only Projekte |
| Llama 3.1 405B | Open Source, Self-hosted | Infrastruktur-Aufwand | Für Enterprise mit eigener GPU |
| Grok 2 | Echtzeit-Daten via X | Bias-Risiko, kleinere Community | Nische |
| Cohere Command R+ | RAG-optimiert, Enterprise | Weniger kreativ | Für reine Retrieval-Aufgaben |
5 Gründe, warum wir auf Claude gewechselt sind
1. Coding: Claude versteht Kontext, nicht nur Syntax
Der größte Unterschied im Alltag. Wenn wir Claude einen 200-Zeilen-Komponentencode geben und sagen „Refactore das", kommt Code zurück, der:
- Die bestehende Architektur respektiert
- Tailwind-Tokens statt hardcoded Farben nutzt
- Edge Cases berücksichtigt, die wir nicht erwähnt haben
GPT-5 liefert oft technisch korrekten Code, der aber nicht in die bestehende Codebasis passt. Claude fühlt sich an wie ein Senior Developer, der das Projekt kennt.
2. Lange Dokumente: 200k Tokens ohne Qualitätsverlust
Wir analysieren regelmäßig 80-seitige Ausschreibungen oder SOPs. Claude's 200k Context Window (und 1M bei Opus) hält die Qualität über das gesamte Dokument. Bei GPT-5 haben wir ab ~60 Seiten merkbare Halluzinationen beobachtet – Details aus der Mitte des Dokuments werden verwechselt oder vergessen.
3. MCP: Claude spricht nativ mit unseren Tools
Das war der Killer-Grund. MCP (Model Context Protocol) wurde von Anthropic initiiert, und Claude's Integration ist entsprechend nahtlos. Wir nutzen MCP, um Claude direkt mit unserem monday CRM, Apollo, Slack und internen Tools zu verbinden. ChatGPT kann das über Custom GPTs und Plugins – aber es fühlt sich wie ein Workaround an, nicht wie ein Feature.
4. Schreibstil: Weniger „AI-Sprech"
Wer viel mit ChatGPT arbeitet, kennt das Muster: „Certainly!", „Great question!", „Let me break that down for you." Claude schreibt natürlicher, direkter und – ehrlich gesagt – erwachsener. Für Proposals und Kunden-Kommunikation ein echter Vorteil.
5. EU-Hosting & Datenschutz
Als deutsches Beratungsunternehmen, das mit Kundendaten arbeitet, ist DSGVO kein Nice-to-have. Claude bietet EU-Hosting, OpenAI (Stand Februar 2026) nicht für API-Kunden im Standard. Für regulierte Branchen (Gesundheit, Finanzen, Öffentlicher Sektor) ist das ein Dealbreaker.
Wo ChatGPT immer noch besser ist
Fairness gehört dazu:
- Multimodal (Bilder, Video, Audio): GPT-5 ist breiter aufgestellt bei der Verarbeitung verschiedener Medientypen
- Ökosystem & Plugins: Der GPT Store ist größer, Custom GPTs sind einfacher zu bauen
- Allgemeinwissen: Bei Trivia und breiten Wissensfragen ist GPT-5 minimal besser
- Image Generation: DALL·E 3 ist direkt integriert, Claude hat keine eigene Bildgenerierung
Wo Gemini alle übertrumpft
Google's Gemini 2.5 Pro hat einen unfairen Vorteil:
- 1M+ Context Window: Für wirklich massive Dokumente unschlagbar
- Preis-Leistung: $1.25/1M Input Tokens – ein Bruchteil der Konkurrenz
- Google-Integration: Wenn euer Stack auf Google Workspace läuft, ist Gemini die natürliche Wahl
- Multimodal: Video- und Audio-Verständnis ist Best-in-Class
Wir nutzen Gemini 2.5 Flash als günstige Alternative für Bulk-Aufgaben (E-Mail-Klassifikation, Daten-Parsing). Für alles, was Qualität braucht, bleibt Claude unser Go-to.
Unser aktuelles Setup
┌─────────────────────────────────────────┐
│ Primär: Claude Sonnet 4.6 │
│ Coding, Consulting, Content, MCP-Agent │
├─────────────────────────────────────────┤
│ Sekundär: Gemini 2.5 Flash │
│ Bulk-Tasks, Klassifikation, Parsing │
├─────────────────────────────────────────┤
│ Spezial: Claude Opus 4.5 │
│ Komplexe Architektur, Strategie │
├─────────────────────────────────────────┤
│ Fallback: GPT-5-mini │
│ Wenn Claude mal ausfällt (selten) │
└─────────────────────────────────────────┘
Was du für dein Unternehmen mitnehmen solltest
- Teste mit deinen echten Use Cases. Benchmarks sind nett, aber nur deine eigenen Aufgaben zeigen den Unterschied.
- Ein Modell reicht nicht. Wir nutzen 3–4 Modelle für verschiedene Zwecke. Das ist kein Bug, sondern eine Strategie.
- MCP wird zum Standard. Investiere jetzt in Tool-Connectivity – egal welches Modell du nutzt.
- Datenschutz ist kein Luxus. Prüfe, wo deine Daten verarbeitet werden, bevor du ein Modell produktiv einsetzt.
- Wechsel, wenn es sich lohnt. Loyalität zu einem AI-Anbieter ist verschwendete Energie. Nutze, was funktioniert.
Fazit: Es geht nicht um das "beste" Modell
Es gibt kein objektiv bestes LLM. Es gibt nur das beste LLM für deine Arbeit. Für uns ist das Claude – wegen Coding-Qualität, MCP-Integration, Schreibstil und EU-Hosting.
Aber wenn Google morgen Gemini mit nativem MCP-Support und EU-Hosting released? Dann testen wir das am selben Tag. Tool-Agnostik ist der einzige nachhaltige Ansatz.
Die Zukunft gehört nicht einem Modell – sie gehört dem offenen Protokoll, das sie alle verbindet. Und das ist MCP.
→ Mehr über unsere AI-Services → GTM Tech Stack mit Claude & MCP
Related Articles

GGUF, GGML, Safetensors – welches Format für dein lokales AI-Setup?
Wer AI lokal nutzen will, stolpert schnell über Dateiformate. GGUF, GGML, Safetensors – was ist was, wann brauchst du we…
Read more
122 Milliarden Parameter auf deinem Laptop – was Qwen3.5 für dein Business bedeutet
Alibabas Qwen3.5 schlägt GPT-5-mini in fast allen Benchmarks – und läuft lokal auf einem Laptop. Was das für Unternehmen…
Read more
NanoClaw: Der schlanke Nachfolger von OpenClaw – KI-Agent für die Hosentasche
NanoClaw ist der minimalistische Nachfolger von OpenClaw – ein KI-Agent, der auf Raspberry Pi läuft, per WhatsApp steuer…
Read more