
Open-Source-LLMs im Vergleich 2026 – 25+ Modelle, die du kennen solltest
TL;DR: „25+ Open-Source-LLMs im direkten Vergleich: Gemma 4 (26B, 85 t/s auf Consumer-Hardware), Hunter Alpha (1T), Llama 4, Qwen3.5, DeepSeek-R1, Nemotron Cascade 2, Mistral und viele mehr. Mit GitHub-Stats, Hardware-Anforderungen und Entscheidungshilfe für den richtigen Einsatz."
— Till FreitagStand: April 2026 – GitHub-Stars und Modellversionen werden regelmäßig aktualisiert. Neu: Muse Spark Einordnung, Gemma 4, Nemotron Cascade 2 und Kimi K2.5.
Warum Open Source bei LLMs jetzt zählt
2025 war das Jahr, in dem Open-Source-LLMs die Lücke zu proprietären Modellen geschlossen haben. 2026 sind sie in vielen Bereichen gleichauf – oder besser. Für Unternehmen bedeutet das: Mehr Kontrolle, weniger Abhängigkeit, bessere DSGVO-Compliance.
Dieser Artikel gibt dir einen vollständigen Überblick über die wichtigsten Open-Source-LLMs – mit echten GitHub-Daten, Hardware-Anforderungen und klaren Empfehlungen.
Die große Übersichtstabelle
| Modell | Anbieter | Parameter | GitHub ⭐ | Lizenz | Besonderheit |
|---|---|---|---|---|---|
| Gemma 4 🆕 | 26B (MoE) | 8.500+ | Gemma License | 85 t/s auf Consumer-Hardware, 256K Kontext | |
| Nemotron Cascade 2 🆕 | NVIDIA | 30B | 3.500+ | NVIDIA Open | ~54 t/s lokal, optimiert für Inference |
| Hunter Alpha | Anonym (via OpenRouter) | 1T (~32B aktiv) | – | Unbekannt | Größtes kostenloses Modell, 1M Kontext |
| Kimi K2.5 🆕 | Moonshot AI | 1T (32B aktiv) | 5.000+ | Modified MIT | Agent Swarm (100 Sub-Agenten), multimodal |
| Llama 4 Scout | Meta | 109B (17B aktiv) | 7.500+ | Llama License | 10M Token Kontext |
| Llama 4 Maverick | Meta | 400B (17B aktiv) | 7.500+ | Llama License | Bestes MoE-Modell von Meta |
| Qwen3.5-122B | Alibaba | 122B (10B aktiv) | 27.000+ | Apache 2.0 | Schlägt GPT-5-mini |
| Qwen3-235B | Alibaba | 235B | 27.000+ | Apache 2.0 | Thinking-Modus |
| DeepSeek-R1 | DeepSeek | 671B (37B aktiv) | 102.000+ | MIT | Chain-of-Thought Reasoning |
| DeepSeek-V3 | DeepSeek | 671B (37B aktiv) | 102.000+ | MIT | Multi-Token-Prediction |
| Mistral Large 2 | Mistral | 123B | 10.700+ | Apache 2.0 | 128k Kontext, 80+ Sprachen |
| Mixtral 8x22B | Mistral | 141B (39B aktiv) | 10.700+ | Apache 2.0 | Sparse MoE Pioneer |
| Gemma 3 | 1B–27B | 6.800+ | Gemma License | Multimodal, on-device | |
| Phi-4 | Microsoft | 14B | 12.000+ | MIT | Reasoning auf kleiner Hardware |
| Phi-4-Mini | Microsoft | 3.8B | 12.000+ | MIT | Smartphone-tauglich |
| Command R+ | Cohere | 104B | 3.200+ | CC-BY-NC | RAG-optimiert, 10 Sprachen |
| Yi-1.5 | 01.AI | 6B–34B | 7.800+ | Apache 2.0 | Starke Mehrsprachigkeit |
| DBRX | Databricks | 132B (36B aktiv) | 3.200+ | Databricks Open | Enterprise MoE |
| Falcon 3 | TII | 1B–10B | 2.000+ | Apache 2.0 | UAE-Forschungsprojekt |
| StableLM 2 | Stability AI | 1.6B–12B | 8.500+ | Stability License | Kompakt & effizient |
| InternLM 3 | Shanghai AI Lab | 8B | 7.200+ | Apache 2.0 | Long Context bis 1M |
| OLMo 2 | AI2 | 7B–13B | 6.400+ | Apache 2.0 | Vollständig offen (Daten + Code) |
| Jamba 1.5 | AI21 Labs | 52B (12B aktiv) | 900+ | Apache 2.0 | Mamba-Transformer Hybrid |
| StarCoder 2 | BigCode | 3B–15B | 2.000+ | BigCode OpenRAIL-M | Code-Spezialist |
| CodeLlama | Meta | 7B–70B | 16.400+ | Llama License | Code-Generierung & Infilling |
| DeepSeek-Coder-V2 | DeepSeek | 236B (21B aktiv) | 12.000+ | MIT | Code + Math Spezialist |
| Qwen2.5-Coder | Alibaba | 0.5B–32B | 27.000+ | Apache 2.0 | Code-Completion, multi-lang |
Die Top-Modelle im Detail
🔥 Gemma 4 (Google) 🆕
Googles neues MoE-Flaggschiff: 26B Parameter, nur 14 GB groß, 85 Tokens pro Sekunde auf Consumer-Hardware. Das Modell, das die Grenze zwischen Cloud- und lokaler Intelligenz endgültig aufhebt. → Unser Deep-Dive zu Gemma 4
Stärken:
- 85 t/s auf einem AMD Ryzen AI MAX+ mit 128 GB RAM
- 256K Kontextfenster für lange Dokument-Analyse
- Function Calling funktioniert zuverlässig
- GPT-4-Qualität bei komplexem Reasoning – lokal, ohne Cloud
Schwächen:
- Gemma License (nicht reines Apache 2.0)
- MoE-Architektur – nicht alle Frameworks unterstützen das nativ
- Noch kein Video-Input
GitHub: github.com/google/gemma.cpp · 8.500+ ⭐
🐉 Hunter Alpha → Xiaomi MiMo-V2-Pro (ehem. "vermutlich DeepSeek V4")
⚡ Update April 2026: Hunter Alpha wurde am 18. März 2026 als Xiaomis MiMo-V2-Pro enttarnt – es war nie DeepSeek V4. Das Team wird von Luo Fuli geleitet, einem Ex-DeepSeek-Ingenieur. → Die vollständige Geschichte · → Chinas KI-Offensive: Die Analyse
Das größte auf OpenRouter verfügbare KI-Modell: >1 Billion Parameter, mit ~42B aktiven Parametern pro Token. Ursprünglich anonym gelauncht am 11. März 2026, jetzt kommerziell unter Xiaomis MiMo-Brand.
Stärken:
1T Parameter mit ~42B aktiv (MoE) – größtes verfügbares Modell
- 1M Token Kontextfenster
- ClawEval 61.5 – starke Agentic-Performance
- Bekannter Provider (Xiaomi, börsennotiert)
- Open Source geplant nach Stabilisierung
Schwächen:
- Nicht mehr kostenlos ($1–2 / MTok Input, $3–6 / MTok Output)
- Nicht lokal ausführbar (vorerst nur via OpenRouter API)
- Datenschutz: OpenRouter-Logging-Policies gelten weiterhin
Zugang: openrouter.ai/xiaomi/mimo-v2-pro
🌙 Kimi K2.5 (Moonshot AI) 🆕
Moonshot AIs Flaggschiff aus Peking: 1 Billion Parameter mit MoE (32B aktiv), 384 Experten und einer einzigartigen Agent-Swarm-Architektur. → Die Cursor-Kontroverse: Warum Composer 2 auf Kimi K2.5 läuft
Stärken:
- Agent Swarm: koordiniert bis zu 100 Sub-Agenten für komplexe Tasks
- Multimodal (Text + Bild + Video)
- AIME 2025: 96,1 % – schlägt alle Frontier-Modelle bei Math-Reasoning
- Modified MIT – kommerziell frei unter 100M MAU
Schwächen:
- Sehr groß – lokaler Einsatz nur mit High-End-Hardware (128 GB+ RAM)
- Chinesischer Anbieter – Compliance-Thema
- Modified MIT erfordert Attribution ab bestimmten Schwellen
GitHub: github.com/MoonshotAI/Kimi-K2.5 · 5.000+ ⭐
⚡ Nemotron Cascade 2 (NVIDIA) 🆕
NVIDIAs neues Inference-optimiertes Modell: 30B Parameter, läuft mit ~54 t/s auf Projekt KNUT (RTX 4060 Ti + RTX 3060). Speziell für lokale, schnelle Inference konzipiert. → Projekt KNUT: Lokale KI-Infrastruktur
Stärken:
- 54 t/s auf Consumer-GPUs – 15x schneller als menschliche Sprache
- Qualitativ vergleichbar mit GPT-4o mini
- Optimiert für NVIDIA-Hardware (CUDA)
Schwächen:
- NVIDIA-Lizenz (nicht Apache 2.0)
- Primär auf NVIDIA-GPUs ausgelegt
- Noch relativ kleine Community
🦙 Llama 4 (Meta)
Metas neueste Generation bringt zwei Varianten: Scout (109B, 10M Kontext) und Maverick (400B, für Qualität). Beide nutzen Mixture-of-Experts – nur 17B Parameter sind pro Query aktiv.
Stärken:
- Größtes Kontextfenster aller Open-Source-Modelle (10M Tokens bei Scout)
- Starke Community und Ecosystem
- Multimodal (Text + Bild)
Schwächen:
- Llama License ist nicht "echtes" Open Source (kommerzielle Einschränkungen bei >700M MAU)
- Große Modelle brauchen erhebliche Hardware
GitHub: github.com/meta-llama/llama-models · 7.500+ ⭐
⚠️ Muse Spark (Meta) – Proprietäre Referenz
Wichtig: Muse Spark ist kein Open-Source-Modell. Wir führen es hier als proprietäre Referenz auf, weil es Metas strategische Abkehr von Open Source markiert – und direkt zeigt, wo die offenen Alternativen bereits besser sind.
Muse Spark ist das erste Modell der neuen Meta Superintelligence Labs (MSL) und seit April 2026 kostenlos für alle Meta-Nutzer verfügbar. → Unsere kritische Analyse zu Muse Spark
Wo Muse Spark stark ist (und Open Source noch nicht):
- HealthBench Hard: 42.8 – besser als GPT-5.4 (40.1), kein Open-Source-Modell kommt nah
- Humanity's Last Exam: 50.2% – der Contemplating-Modus orchestriert mehrere Agenten parallel
- Kostenlos für 3+ Milliarden Meta-Nutzer
Wo Open Source Muse Spark schlägt:
- Coding: Terminal-Bench 59.0 – selbst Qwen2.5-Coder-32B liefert für lokale Code-Tasks bessere Ergebnisse
- Abstract Reasoning: ARC-AGI-2 42.5 vs. GPT-5.4 76.1 – ein massiver Rückstand
- Agentic Tasks: Kimi K2.5 mit Agent Swarm ist für autonome Multi-Step-Workflows die bessere Wahl
- Datenkontrolle: Muse Spark läuft in Metas Cloud – keine Self-Hosting-Option
Der strategische Bruch: Meta hat jahrelang Open Source als Differenzierungsmerkmal positioniert. Muse Spark ist closed-source ohne Zeitplan für eine Weights-Veröffentlichung. Für die Open-Source-Community bedeutet das: Llama bleibt vorerst Metas offenes Standbein, aber das beste Modell des Unternehmens ist nicht mehr frei zugänglich.
🌐 Qwen3.5 (Alibaba)
Das aktuell stärkste Open-Source-MoE-Modell. 122B Parameter, davon nur 10B aktiv – läuft auf einem MacBook mit 64 GB RAM. → Unser Deep-Dive zu Qwen3.5
Stärken:
- Schlägt GPT-5-mini in den meisten Benchmarks
- Apache 2.0 – echtes Open Source
- 262k Kontextfenster (erweiterbar auf 1M)
Schwächen:
- Kein Multimodal (nur Text)
- Chinesischer Anbieter – für manche Unternehmen ein Compliance-Thema
GitHub: github.com/QwenLM/Qwen3 · 27.000+ ⭐
🔬 DeepSeek-R1
Das Modell, das Anfang 2025 die AI-Welt erschüttert hat. 671B Parameter mit MoE (37B aktiv), spezialisiert auf Chain-of-Thought Reasoning.
Stärken:
- Reasoning-Qualität auf GPT-o1-Niveau
- MIT-Lizenz – maximale Freiheit
- "Thinking"-Modus zeigt den Denkprozess
Schwächen:
- Sehr groß – lokal nur mit High-End-Hardware
- Chinesischer Anbieter
GitHub: github.com/deepseek-ai/DeepSeek-V3 · 102.000+ ⭐
🌊 Mistral Large 2
Mistrals Flaggschiff: 123B Parameter, 128k Kontext, über 80 Sprachen. Das europäische Gegengewicht zu den US- und China-Modellen.
Stärken:
- Europäischer Anbieter (Paris) – einfacheres DSGVO-Narrativ
- Starke Mehrsprachigkeit
- Apache 2.0
Schwächen:
- Kleinere Community als Llama oder Qwen
- Weniger spezialisierte Varianten
GitHub: github.com/mistralai/mistral-inference · 10.700+ ⭐
💎 Gemma 3 (Google)
Googles offene Modellreihe von 1B bis 27B – optimiert für On-Device-Nutzung. Multimodal ab 4B. Inzwischen Vorgänger von Gemma 4, aber weiterhin relevant für Edge-Deployments.
Stärken:
- Multimodal (Text + Bild) auch in kleinen Varianten
- Läuft auf Smartphones und Raspberry Pi
- ShieldGemma für Safety
Schwächen:
- Gemma License hat Nutzungsrichtlinien (kein reines Apache 2.0)
- Maximale Größe nur 27B
GitHub: github.com/google/gemma.cpp · 6.800+ ⭐
🧠 Phi-4 (Microsoft)
Microsofts "Small Language Model" mit 14B Parametern, das größere Modelle bei Reasoning-Tasks schlägt.
Stärken:
- Herausragende Qualität pro Parameter
- MIT-Lizenz
- Läuft auf Consumer-Hardware
Schwächen:
- Kein Multimodal in der Basis-Variante
- Kleines Kontextfenster (16k)
GitHub: github.com/microsoft/phi-4 · 12.000+ ⭐
Coding-LLMs im Vergleich
Für Entwickler gibt es spezialisierte Code-Modelle:
| Modell | Parameter | Sprachen | Besonderheit |
|---|---|---|---|
| StarCoder 2 | 3B–15B | 600+ | Trainiert auf The Stack v2 |
| CodeLlama | 7B–70B | ~20 | Infilling & lange Kontexte |
| DeepSeek-Coder-V2 | 236B (21B aktiv) | 300+ | Code + Math kombiniert |
| Qwen2.5-Coder | 0.5B–32B | 90+ | Bestes Open-Source-Code-Modell pro Größe |
Unsere Empfehlung: Qwen2.5-Coder-32B für maximale Qualität, StarCoder 2-3B wenn es lokal auf dem Laptop laufen soll.
Entscheidungsmatrix: Welches Modell für welchen Einsatz?
| Dein Use Case | Empfohlenes Modell | Warum |
|---|---|---|
| Frontier-Qualität lokal | 🆕 Gemma 4 (26B) | GPT-4-Niveau, 85 t/s, 14 GB |
| Agentic Tasks & Multi-Step-Workflows | Hunter Alpha oder Kimi K2.5 | 1T Parameter, Agent Swarm |
| DSGVO-sensible Dokumente analysieren | Qwen3.5-122B lokal | Bestes Verhältnis Qualität/Ressourcen |
| Code-Generierung & Refactoring | Qwen2.5-Coder-32B | Schlägt größere Modelle bei Code |
| Komplexes Reasoning | DeepSeek-R1 | Chain-of-Thought auf GPT-o1-Niveau |
| Schnelle lokale Inference | 🆕 Nemotron Cascade 2 | 54 t/s auf Consumer-GPUs |
| Auf Smartphone/Edge laufen | Gemma 3 (4B) oder Phi-4-Mini | Optimiert für minimale Hardware |
| RAG mit Firmendaten | Command R+ | Speziell für Retrieval-Augmented Generation |
| Maximaler Kontext (lange Dokumente) | Llama 4 Scout | 10M Token Kontextfenster |
| Europäischer Anbieter gewünscht | Mistral Large 2 | Französisches Unternehmen, Apache 2.0 |
| Vollständig offene Trainingsdaten | OLMo 2 | Einziges Modell mit komplett offenen Daten |
| Multi-Agent-Workflows | Kimi K2.5 oder DeepSeek-V3 | Agent Swarm mit 100 Sub-Agenten (Kimi) |
Hardware-Guide: Was brauchst du wirklich?
| RAM / VRAM | Modelle (quantisiert, Q4) | Beispiel-Hardware |
|---|---|---|
| 8 GB | Phi-4-Mini, Gemma 3 (1B–4B) | MacBook Air M3, RTX 3060 |
| 16 GB | Phi-4, Gemma 3 (12B), Gemma 4 (26B, Q4), Yi-1.5-9B | MacBook Pro M3, RTX 4070 |
| 32 GB | Mistral 7B, Llama 3.3-8B, Qwen2.5-14B, Nemotron Cascade 2 | MacBook Pro M4, RTX 4090 |
| 64 GB | Qwen3.5-122B, Mixtral 8x22B | MacBook Pro M4 Max |
| 128 GB+ | DeepSeek-R1, Llama 4 Maverick, Kimi K2.5, Gemma 4 (FP16) | Multi-GPU Server, Mac Studio Ultra |
Lizenzen: Der Teufel im Detail
Nicht jedes "Open-Source"-Modell ist gleich offen:
| Lizenz | Modelle | Kommerzielle Nutzung | Einschränkungen |
|---|---|---|---|
| Apache 2.0 | Qwen, Mistral, Yi, Falcon, OLMo | ✅ Uneingeschränkt | Keine |
| MIT | DeepSeek, Phi | ✅ Uneingeschränkt | Keine |
| Llama License | Llama 4, CodeLlama | ✅ Bis 700M MAU | Über 700M MAU: Meta-Lizenz nötig |
| Gemma License | Gemma 3, Gemma 4 | ✅ Mit Bedingungen | Nutzungsrichtlinien beachten |
| CC-BY-NC | Command R+ | ❌ Nicht-kommerziell | Nur Forschung & privat |
| Modified MIT | Kimi K2.5 | ✅ Unter 100M MAU | Attribution ab 100M MAU / 20M $ Umsatz |
| NVIDIA Open | Nemotron Cascade 2 | ✅ Mit Bedingungen | NVIDIA-Nutzungsbedingungen |
Tipp: Für kommerzielle Projekte Apache 2.0 oder MIT bevorzugen. Bei Llama genau prüfen, ob die Nutzungsbedingungen passen.
Wie du Open-Source-LLMs lokal nutzt
Die einfachsten Wege, ein Open-Source-Modell auf deinem Rechner zu starten:
- Ollama – Ein Befehl:
ollama run gemma4– fertig - LM Studio – GUI für Nicht-Entwickler, GGUF-Modelle per Drag & Drop
- vLLM – Für Production-Deployments mit hohem Throughput
- llama.cpp – C++ Runtime, maximale Performance auf CPU
→ Mehr über GGUF, GGML und Safetensors
Unser Take
Die Frage ist nicht mehr "Cloud oder lokal?" – sondern "Welches Modell für welche Aufgabe?". Mit Gemma 4 hat sich die Antwort nochmal verschoben: Frontier-Qualität ist jetzt laptop-sized. Und Metas Muse Spark zeigt: Selbst der lauteste Open-Source-Verfechter geht closed-source, wenn es um Frontier-Performance geht. Unsere Empfehlung:
- Gemma 4 lokal als neuer Default für die meisten Aufgaben
- Cloud-APIs für Kunden-Chatbots und kreative Aufgaben (Claude, GPT-5)
- Open Source lokal für sensible Daten, Bulk-Processing und Prototyping
- Hybride Architektur als Ziel: Das beste Modell für jeden Job, unabhängig vom Anbieter
- Muse Spark als Warnsignal: Wenn proprietäre Modelle kostenlos werden, aber ohne Datenkontrolle – dann ist Open Source kein Nice-to-have, sondern Versicherung
Die Zukunft gehört nicht einem Modell – sie gehört der Architektur, die flexibel genug ist, jedes Modell zu nutzen.
→ Unsere AI-Services → Meta Muse Spark: Kritische Analyse → Gemma 4: Frontier-Intelligenz auf dem Laptop → Projekt KNUT: Lokale KI-Infrastruktur mit 52 GB VRAM → Hunter Alpha: Das größte kostenlose KI-Modell der Welt → Kimi K2.5: Das Modell hinter Cursors Composer 2 → Qwen3.5 Deep-Dive: 122B Parameter auf deinem Laptop → KI-Agenten im Vergleich








