
Open-Source-LLMs im Vergleich 2026 – 20+ Modelle, die du kennen solltest
TL;DR: „20+ Open-Source-LLMs im direkten Vergleich: Llama 4, Qwen3.5, DeepSeek-R1, Mistral, Gemma 3 und viele mehr. Mit GitHub-Stats, Hardware-Anforderungen und Entscheidungshilfe für den richtigen Einsatz."
— Till FreitagStand: März 2026 – GitHub-Stars und Modellversionen werden regelmäßig aktualisiert.
Warum Open Source bei LLMs jetzt zählt
2025 war das Jahr, in dem Open-Source-LLMs die Lücke zu proprietären Modellen geschlossen haben. 2026 sind sie in vielen Bereichen gleichauf – oder besser. Für Unternehmen bedeutet das: Mehr Kontrolle, weniger Abhängigkeit, bessere DSGVO-Compliance.
Dieser Artikel gibt dir einen vollständigen Überblick über die wichtigsten Open-Source-LLMs – mit echten GitHub-Daten, Hardware-Anforderungen und klaren Empfehlungen.
Die große Übersichtstabelle
| Modell | Anbieter | Parameter | GitHub ⭐ | Lizenz | Besonderheit |
|---|---|---|---|---|---|
| Llama 4 Scout | Meta | 109B (17B aktiv) | 75.000+ | Llama License | 10M Token Kontext |
| Llama 4 Maverick | Meta | 400B (17B aktiv) | 75.000+ | Llama License | Bestes MoE-Modell von Meta |
| Qwen3.5-122B | Alibaba | 122B (10B aktiv) | 18.000+ | Apache 2.0 | Schlägt GPT-5-mini |
| Qwen3-235B | Alibaba | 235B | 18.000+ | Apache 2.0 | Thinking-Modus |
| DeepSeek-R1 | DeepSeek | 671B (37B aktiv) | 30.000+ | MIT | Chain-of-Thought Reasoning |
| DeepSeek-V3 | DeepSeek | 671B (37B aktiv) | 30.000+ | MIT | Multi-Token-Prediction |
| Mistral Large 2 | Mistral | 123B | 37.000+ | Apache 2.0 | 128k Kontext, 80+ Sprachen |
| Mixtral 8x22B | Mistral | 141B (39B aktiv) | 37.000+ | Apache 2.0 | Sparse MoE Pioneer |
| Gemma 3 | 1B–27B | 6.000+ | Gemma License | Multimodal, on-device | |
| Phi-4 | Microsoft | 14B | 12.000+ | MIT | Reasoning auf kleiner Hardware |
| Phi-4-Mini | Microsoft | 3.8B | 12.000+ | MIT | Smartphone-tauglich |
| Command R+ | Cohere | 104B | 4.700+ | CC-BY-NC | RAG-optimiert, 10 Sprachen |
| Yi-1.5 | 01.AI | 6B–34B | 7.800+ | Apache 2.0 | Starke Mehrsprachigkeit |
| DBRX | Databricks | 132B (36B aktiv) | 3.200+ | Databricks Open | Enterprise MoE |
| Falcon 3 | TII | 1B–10B | 2.000+ | Apache 2.0 | UAE-Forschungsprojekt |
| StableLM 2 | Stability AI | 1.6B–12B | 8.500+ | Stability License | Kompakt & effizient |
| InternLM 3 | Shanghai AI Lab | 8B | 7.200+ | Apache 2.0 | Long Context bis 1M |
| OLMo 2 | AI2 | 7B–13B | 4.800+ | Apache 2.0 | Vollständig offen (Daten + Code) |
| Jamba 1.5 | AI21 Labs | 52B (12B aktiv) | 900+ | Apache 2.0 | Mamba-Transformer Hybrid |
| StarCoder 2 | BigCode | 3B–15B | 4.500+ | BigCode OpenRAIL-M | Code-Spezialist |
| CodeLlama | Meta | 7B–70B | 16.500+ | Llama License | Code-Generierung & Infilling |
| DeepSeek-Coder-V2 | DeepSeek | 236B (21B aktiv) | 12.000+ | MIT | Code + Math Spezialist |
| Qwen2.5-Coder | Alibaba | 0.5B–32B | 18.000+ | Apache 2.0 | Code-Completion, multi-lang |
Die Top-Modelle im Detail
🦙 Llama 4 (Meta)
Metas neueste Generation bringt zwei Varianten: Scout (109B, 10M Kontext) und Maverick (400B, für Qualität). Beide nutzen Mixture-of-Experts – nur 17B Parameter sind pro Query aktiv.
Stärken:
- Größtes Kontextfenster aller Open-Source-Modelle (10M Tokens bei Scout)
- Starke Community und Ecosystem
- Multimodal (Text + Bild)
Schwächen:
- Llama License ist nicht "echtes" Open Source (kommerzielle Einschränkungen bei >700M MAU)
- Große Modelle brauchen erhebliche Hardware
GitHub: github.com/meta-llama/llama-models · 75.000+ ⭐
🌐 Qwen3.5 (Alibaba)
Das aktuell stärkste Open-Source-MoE-Modell. 122B Parameter, davon nur 10B aktiv – läuft auf einem MacBook mit 64 GB RAM. → Unser Deep-Dive zu Qwen3.5
Stärken:
- Schlägt GPT-5-mini in den meisten Benchmarks
- Apache 2.0 – echtes Open Source
- 262k Kontextfenster (erweiterbar auf 1M)
Schwächen:
- Kein Multimodal (nur Text)
- Chinesischer Anbieter – für manche Unternehmen ein Compliance-Thema
GitHub: github.com/QwenLM/Qwen3 · 18.000+ ⭐
🔬 DeepSeek-R1
Das Modell, das Anfang 2025 die AI-Welt erschüttert hat. 671B Parameter mit MoE (37B aktiv), spezialisiert auf Chain-of-Thought Reasoning.
Stärken:
- Reasoning-Qualität auf GPT-o1-Niveau
- MIT-Lizenz – maximale Freiheit
- "Thinking"-Modus zeigt den Denkprozess
Schwächen:
- Sehr groß – lokal nur mit High-End-Hardware
- Chinesischer Anbieter
GitHub: github.com/deepseek-ai/DeepSeek-R1 · 30.000+ ⭐
🌊 Mistral Large 2
Mistrals Flaggschiff: 123B Parameter, 128k Kontext, über 80 Sprachen. Das europäische Gegengewicht zu den US- und China-Modellen.
Stärken:
- Europäischer Anbieter (Paris) – einfacheres DSGVO-Narrativ
- Starke Mehrsprachigkeit
- Apache 2.0
Schwächen:
- Kleinere Community als Llama oder Qwen
- Weniger spezialisierte Varianten
GitHub: github.com/mistralai/mistral-inference · 37.000+ ⭐
💎 Gemma 3 (Google)
Googles offene Modellreihe von 1B bis 27B – optimiert für On-Device-Nutzung. Multimodal ab 4B.
Stärken:
- Multimodal (Text + Bild) auch in kleinen Varianten
- Läuft auf Smartphones und Raspberry Pi
- ShieldGemma für Safety
Schwächen:
- Gemma License hat Nutzungsrichtlinien (kein reines Apache 2.0)
- Maximale Größe nur 27B
GitHub: github.com/google/gemma.cpp · 6.000+ ⭐
🧠 Phi-4 (Microsoft)
Microsofts "Small Language Model" mit 14B Parametern, das größere Modelle bei Reasoning-Tasks schlägt.
Stärken:
- Herausragende Qualität pro Parameter
- MIT-Lizenz
- Läuft auf Consumer-Hardware
Schwächen:
- Kein Multimodal in der Basis-Variante
- Kleines Kontextfenster (16k)
GitHub: github.com/microsoft/phi-4 · 12.000+ ⭐
Coding-LLMs im Vergleich
Für Entwickler gibt es spezialisierte Code-Modelle:
| Modell | Parameter | Sprachen | Besonderheit |
|---|---|---|---|
| StarCoder 2 | 3B–15B | 600+ | Trainiert auf The Stack v2 |
| CodeLlama | 7B–70B | ~20 | Infilling & lange Kontexte |
| DeepSeek-Coder-V2 | 236B (21B aktiv) | 300+ | Code + Math kombiniert |
| Qwen2.5-Coder | 0.5B–32B | 90+ | Bestes Open-Source-Code-Modell pro Größe |
Unsere Empfehlung: Qwen2.5-Coder-32B für maximale Qualität, StarCoder 2-3B wenn es lokal auf dem Laptop laufen soll.
Entscheidungsmatrix: Welches Modell für welchen Einsatz?
| Dein Use Case | Empfohlenes Modell | Warum |
|---|---|---|
| DSGVO-sensible Dokumente analysieren | Qwen3.5-122B lokal | Bestes Verhältnis Qualität/Ressourcen |
| Code-Generierung & Refactoring | Qwen2.5-Coder-32B | Schlägt größere Modelle bei Code |
| Komplexes Reasoning | DeepSeek-R1 | Chain-of-Thought auf GPT-o1-Niveau |
| Auf Smartphone/Edge laufen | Gemma 3 (4B) oder Phi-4-Mini | Optimiert für minimale Hardware |
| RAG mit Firmendaten | Command R+ | Speziell für Retrieval-Augmented Generation |
| Maximaler Kontext (lange Dokumente) | Llama 4 Scout | 10M Token Kontextfenster |
| Europäischer Anbieter gewünscht | Mistral Large 2 | Französisches Unternehmen, Apache 2.0 |
| Vollständig offene Trainingsdaten | OLMo 2 | Einziges Modell mit komplett offenen Daten |
| Multi-Agent-Workflows | DeepSeek-V3 oder Qwen3-235B | Starkes Tool-Use und Function Calling |
Hardware-Guide: Was brauchst du wirklich?
| RAM / VRAM | Modelle (quantisiert, Q4) | Beispiel-Hardware |
|---|---|---|
| 8 GB | Phi-4-Mini, Gemma 3 (1B–4B) | MacBook Air M3, RTX 3060 |
| 16 GB | Phi-4, Gemma 3 (12B), Yi-1.5-9B | MacBook Pro M3, RTX 4070 |
| 32 GB | Mistral 7B, Llama 3.3-8B, Qwen2.5-14B | MacBook Pro M4, RTX 4090 |
| 64 GB | Qwen3.5-122B, Mixtral 8x22B | MacBook Pro M4 Max |
| 128 GB+ | DeepSeek-R1, Llama 4 Maverick | Multi-GPU Server, Mac Studio Ultra |
Lizenzen: Der Teufel im Detail
Nicht jedes "Open-Source"-Modell ist gleich offen:
| Lizenz | Modelle | Kommerzielle Nutzung | Einschränkungen |
|---|---|---|---|
| Apache 2.0 | Qwen, Mistral, Yi, Falcon, OLMo | ✅ Uneingeschränkt | Keine |
| MIT | DeepSeek, Phi | ✅ Uneingeschränkt | Keine |
| Llama License | Llama 4, CodeLlama | ✅ Bis 700M MAU | Über 700M MAU: Meta-Lizenz nötig |
| Gemma License | Gemma 3 | ✅ Mit Bedingungen | Nutzungsrichtlinien beachten |
| CC-BY-NC | Command R+ | ❌ Nicht-kommerziell | Nur Forschung & privat |
Tipp: Für kommerzielle Projekte Apache 2.0 oder MIT bevorzugen. Bei Llama genau prüfen, ob die Nutzungsbedingungen passen.
Wie du Open-Source-LLMs lokal nutzt
Die einfachsten Wege, ein Open-Source-Modell auf deinem Rechner zu starten:
- Ollama – Ein Befehl:
ollama run qwen3.5– fertig - LM Studio – GUI für Nicht-Entwickler, GGUF-Modelle per Drag & Drop
- vLLM – Für Production-Deployments mit hohem Throughput
- llama.cpp – C++ Runtime, maximale Performance auf CPU
→ Mehr über GGUF, GGML und Safetensors
Unser Take
Die Frage ist nicht mehr "Cloud oder lokal?" – sondern "Welches Modell für welche Aufgabe?". Unsere Empfehlung:
- Cloud-APIs für Kunden-Chatbots und kreative Aufgaben (Claude, GPT-5)
- Open Source lokal für sensible Daten, Bulk-Processing und Prototyping
- Hybride Architektur als Ziel: Das beste Modell für jeden Job, unabhängig vom Anbieter
Die Zukunft gehört nicht einem Modell – sie gehört der Architektur, die flexibel genug ist, jedes Modell zu nutzen.
→ Unsere AI-Services → Qwen3.5 Deep-Dive: 122B Parameter auf deinem Laptop → KI-Agenten im Vergleich







