Open-Source-LLMs im Vergleich 2026 – 25+ Modelle, die du kennen solltest

7. März 2026Aktualisiert: 13. April 202610 min LesezeitDeep Dive

TL;DR: „25+ Open-Source-LLMs im direkten Vergleich: Gemma 4 (26B, 85 t/s auf Consumer-Hardware), Hunter Alpha (1T), Llama 4, Qwen3.5, DeepSeek-R1, Nemotron Cascade 2, Mistral und viele mehr. Mit GitHub-Stats, Hardware-Anforderungen und Entscheidungshilfe für den richtigen Einsatz."

— Till Freitag

Stand: April 2026 – GitHub-Stars und Modellversionen werden regelmäßig aktualisiert. Neu: Muse Spark Einordnung, Gemma 4, Nemotron Cascade 2 und Kimi K2.5.

Warum Open Source bei LLMs jetzt zählt

2025 war das Jahr, in dem Open-Source-LLMs die Lücke zu proprietären Modellen geschlossen haben. 2026 sind sie in vielen Bereichen gleichauf – oder besser. Für Unternehmen bedeutet das: Mehr Kontrolle, weniger Abhängigkeit, bessere DSGVO-Compliance.

Dieser Artikel gibt dir einen vollständigen Überblick über die wichtigsten Open-Source-LLMs – mit echten GitHub-Daten, Hardware-Anforderungen und klaren Empfehlungen.

Die große Übersichtstabelle

Modell	Anbieter	Parameter	GitHub ⭐	Lizenz	Besonderheit
Gemma 4 🆕	Google	26B (MoE)	8.500+	Gemma License	85 t/s auf Consumer-Hardware, 256K Kontext
Nemotron Cascade 2 🆕	NVIDIA	30B	3.500+	NVIDIA Open	~54 t/s lokal, optimiert für Inference
Hunter Alpha	Anonym (via OpenRouter)	1T (~32B aktiv)	–	Unbekannt	Größtes kostenloses Modell, 1M Kontext
Kimi K2.5 🆕	Moonshot AI	1T (32B aktiv)	5.000+	Modified MIT	Agent Swarm (100 Sub-Agenten), multimodal
Llama 4 Scout	Meta	109B (17B aktiv)	7.500+	Llama License	10M Token Kontext
Llama 4 Maverick	Meta	400B (17B aktiv)	7.500+	Llama License	Bestes MoE-Modell von Meta
Qwen3.5-122B	Alibaba	122B (10B aktiv)	27.000+	Apache 2.0	Schlägt GPT-5-mini
Qwen3-235B	Alibaba	235B	27.000+	Apache 2.0	Thinking-Modus
DeepSeek-R1	DeepSeek	671B (37B aktiv)	102.000+	MIT	Chain-of-Thought Reasoning
DeepSeek-V3	DeepSeek	671B (37B aktiv)	102.000+	MIT	Multi-Token-Prediction
Mistral Large 2	Mistral	123B	10.700+	Apache 2.0	128k Kontext, 80+ Sprachen
Mixtral 8x22B	Mistral	141B (39B aktiv)	10.700+	Apache 2.0	Sparse MoE Pioneer
Gemma 3	Google	1B–27B	6.800+	Gemma License	Multimodal, on-device
Phi-4	Microsoft	14B	12.000+	MIT	Reasoning auf kleiner Hardware
Phi-4-Mini	Microsoft	3.8B	12.000+	MIT	Smartphone-tauglich
Command R+	Cohere	104B	3.200+	CC-BY-NC	RAG-optimiert, 10 Sprachen
Yi-1.5	01.AI	6B–34B	7.800+	Apache 2.0	Starke Mehrsprachigkeit
DBRX	Databricks	132B (36B aktiv)	3.200+	Databricks Open	Enterprise MoE
Falcon 3	TII	1B–10B	2.000+	Apache 2.0	UAE-Forschungsprojekt
StableLM 2	Stability AI	1.6B–12B	8.500+	Stability License	Kompakt & effizient
InternLM 3	Shanghai AI Lab	8B	7.200+	Apache 2.0	Long Context bis 1M
OLMo 2	AI2	7B–13B	6.400+	Apache 2.0	Vollständig offen (Daten + Code)
Jamba 1.5	AI21 Labs	52B (12B aktiv)	900+	Apache 2.0	Mamba-Transformer Hybrid
StarCoder 2	BigCode	3B–15B	2.000+	BigCode OpenRAIL-M	Code-Spezialist
CodeLlama	Meta	7B–70B	16.400+	Llama License	Code-Generierung & Infilling
DeepSeek-Coder-V2	DeepSeek	236B (21B aktiv)	12.000+	MIT	Code + Math Spezialist
Qwen2.5-Coder	Alibaba	0.5B–32B	27.000+	Apache 2.0	Code-Completion, multi-lang

Die Top-Modelle im Detail

🔥 Gemma 4 (Google) 🆕

Googles neues MoE-Flaggschiff: 26B Parameter, nur 14 GB groß, 85 Tokens pro Sekunde auf Consumer-Hardware. Das Modell, das die Grenze zwischen Cloud- und lokaler Intelligenz endgültig aufhebt. → Unser Deep-Dive zu Gemma 4

Stärken:

85 t/s auf einem AMD Ryzen AI MAX+ mit 128 GB RAM
256K Kontextfenster für lange Dokument-Analyse
Function Calling funktioniert zuverlässig
GPT-4-Qualität bei komplexem Reasoning – lokal, ohne Cloud

Schwächen:

Gemma License (nicht reines Apache 2.0)
MoE-Architektur – nicht alle Frameworks unterstützen das nativ
Noch kein Video-Input

GitHub: github.com/google/gemma.cpp · 8.500+ ⭐

🐉 Hunter Alpha → Xiaomi MiMo-V2-Pro (ehem. "vermutlich DeepSeek V4")

⚡ Update April 2026: Hunter Alpha wurde am 18. März 2026 als Xiaomis MiMo-V2-Pro enttarnt – es war nie DeepSeek V4. Das Team wird von Luo Fuli geleitet, einem Ex-DeepSeek-Ingenieur. → Die vollständige Geschichte · → Chinas KI-Offensive: Die Analyse

Das größte auf OpenRouter verfügbare KI-Modell: >1 Billion Parameter, mit ~42B aktiven Parametern pro Token. Ursprünglich anonym gelauncht am 11. März 2026, jetzt kommerziell unter Xiaomis MiMo-Brand.

Stärken:

1T Parameter mit ~42B aktiv (MoE) – größtes verfügbares Modell
1M Token Kontextfenster
ClawEval 61.5 – starke Agentic-Performance
Bekannter Provider (Xiaomi, börsennotiert)
Open Source geplant nach Stabilisierung

Schwächen:

Nicht mehr kostenlos ($1–2 / MTok Input, $3–6 / MTok Output)
Nicht lokal ausführbar (vorerst nur via OpenRouter API)
Datenschutz: OpenRouter-Logging-Policies gelten weiterhin

Zugang: openrouter.ai/xiaomi/mimo-v2-pro

🌙 Kimi K2.5 (Moonshot AI) 🆕

Moonshot AIs Flaggschiff aus Peking: 1 Billion Parameter mit MoE (32B aktiv), 384 Experten und einer einzigartigen Agent-Swarm-Architektur. → Die Cursor-Kontroverse: Warum Composer 2 auf Kimi K2.5 läuft

Stärken:

Agent Swarm: koordiniert bis zu 100 Sub-Agenten für komplexe Tasks
Multimodal (Text + Bild + Video)
AIME 2025: 96,1 % – schlägt alle Frontier-Modelle bei Math-Reasoning
Modified MIT – kommerziell frei unter 100M MAU

Schwächen:

Sehr groß – lokaler Einsatz nur mit High-End-Hardware (128 GB+ RAM)
Chinesischer Anbieter – Compliance-Thema
Modified MIT erfordert Attribution ab bestimmten Schwellen

GitHub: github.com/MoonshotAI/Kimi-K2.5 · 5.000+ ⭐

⚡ Nemotron Cascade 2 (NVIDIA) 🆕

NVIDIAs neues Inference-optimiertes Modell: 30B Parameter, läuft mit ~54 t/s auf Projekt KNUT (RTX 4060 Ti + RTX 3060). Speziell für lokale, schnelle Inference konzipiert. → Projekt KNUT: Lokale KI-Infrastruktur

Stärken:

54 t/s auf Consumer-GPUs – 15x schneller als menschliche Sprache
Qualitativ vergleichbar mit GPT-4o mini
Optimiert für NVIDIA-Hardware (CUDA)

Schwächen:

NVIDIA-Lizenz (nicht Apache 2.0)
Primär auf NVIDIA-GPUs ausgelegt
Noch relativ kleine Community

🦙 Llama 4 (Meta)

Metas neueste Generation bringt zwei Varianten: Scout (109B, 10M Kontext) und Maverick (400B, für Qualität). Beide nutzen Mixture-of-Experts – nur 17B Parameter sind pro Query aktiv.

Stärken:

Größtes Kontextfenster aller Open-Source-Modelle (10M Tokens bei Scout)
Starke Community und Ecosystem
Multimodal (Text + Bild)

Schwächen:

Llama License ist nicht "echtes" Open Source (kommerzielle Einschränkungen bei >700M MAU)
Große Modelle brauchen erhebliche Hardware

GitHub: github.com/meta-llama/llama-models · 7.500+ ⭐

⚠️ Muse Spark (Meta) – Proprietäre Referenz

Wichtig: Muse Spark ist kein Open-Source-Modell. Wir führen es hier als proprietäre Referenz auf, weil es Metas strategische Abkehr von Open Source markiert – und direkt zeigt, wo die offenen Alternativen bereits besser sind.

Muse Spark ist das erste Modell der neuen Meta Superintelligence Labs (MSL) und seit April 2026 kostenlos für alle Meta-Nutzer verfügbar. → Unsere kritische Analyse zu Muse Spark

Wo Muse Spark stark ist (und Open Source noch nicht):

HealthBench Hard: 42.8 – besser als GPT-5.4 (40.1), kein Open-Source-Modell kommt nah
Humanity's Last Exam: 50.2% – der Contemplating-Modus orchestriert mehrere Agenten parallel
Kostenlos für 3+ Milliarden Meta-Nutzer

Wo Open Source Muse Spark schlägt:

Coding: Terminal-Bench 59.0 – selbst Qwen2.5-Coder-32B liefert für lokale Code-Tasks bessere Ergebnisse
Abstract Reasoning: ARC-AGI-2 42.5 vs. GPT-5.4 76.1 – ein massiver Rückstand
Agentic Tasks: Kimi K2.5 mit Agent Swarm ist für autonome Multi-Step-Workflows die bessere Wahl
Datenkontrolle: Muse Spark läuft in Metas Cloud – keine Self-Hosting-Option

Der strategische Bruch: Meta hat jahrelang Open Source als Differenzierungsmerkmal positioniert. Muse Spark ist closed-source ohne Zeitplan für eine Weights-Veröffentlichung. Für die Open-Source-Community bedeutet das: Llama bleibt vorerst Metas offenes Standbein, aber das beste Modell des Unternehmens ist nicht mehr frei zugänglich.

🌐 Qwen3.5 (Alibaba)

Das aktuell stärkste Open-Source-MoE-Modell. 122B Parameter, davon nur 10B aktiv – läuft auf einem MacBook mit 64 GB RAM. → Unser Deep-Dive zu Qwen3.5

Stärken:

Schlägt GPT-5-mini in den meisten Benchmarks
Apache 2.0 – echtes Open Source
262k Kontextfenster (erweiterbar auf 1M)

Schwächen:

Kein Multimodal (nur Text)
Chinesischer Anbieter – für manche Unternehmen ein Compliance-Thema

GitHub: github.com/QwenLM/Qwen3 · 27.000+ ⭐

🔬 DeepSeek-R1

Das Modell, das Anfang 2025 die AI-Welt erschüttert hat. 671B Parameter mit MoE (37B aktiv), spezialisiert auf Chain-of-Thought Reasoning.

Stärken:

Reasoning-Qualität auf GPT-o1-Niveau
MIT-Lizenz – maximale Freiheit
"Thinking"-Modus zeigt den Denkprozess

Schwächen:

Sehr groß – lokal nur mit High-End-Hardware
Chinesischer Anbieter

GitHub: github.com/deepseek-ai/DeepSeek-V3 · 102.000+ ⭐

🌊 Mistral Large 2

Mistrals Flaggschiff: 123B Parameter, 128k Kontext, über 80 Sprachen. Das europäische Gegengewicht zu den US- und China-Modellen.

Stärken:

Europäischer Anbieter (Paris) – einfacheres DSGVO-Narrativ
Starke Mehrsprachigkeit
Apache 2.0

Schwächen:

Kleinere Community als Llama oder Qwen
Weniger spezialisierte Varianten

GitHub: github.com/mistralai/mistral-inference · 10.700+ ⭐

💎 Gemma 3 (Google)

Googles offene Modellreihe von 1B bis 27B – optimiert für On-Device-Nutzung. Multimodal ab 4B. Inzwischen Vorgänger von Gemma 4, aber weiterhin relevant für Edge-Deployments.

Stärken:

Multimodal (Text + Bild) auch in kleinen Varianten
Läuft auf Smartphones und Raspberry Pi
ShieldGemma für Safety

Schwächen:

Gemma License hat Nutzungsrichtlinien (kein reines Apache 2.0)
Maximale Größe nur 27B

GitHub: github.com/google/gemma.cpp · 6.800+ ⭐

🧠 Phi-4 (Microsoft)

Microsofts "Small Language Model" mit 14B Parametern, das größere Modelle bei Reasoning-Tasks schlägt.

Stärken:

Herausragende Qualität pro Parameter
MIT-Lizenz
Läuft auf Consumer-Hardware

Schwächen:

Kein Multimodal in der Basis-Variante
Kleines Kontextfenster (16k)

GitHub: github.com/microsoft/phi-4 · 12.000+ ⭐

Coding-LLMs im Vergleich

Für Entwickler gibt es spezialisierte Code-Modelle:

Modell	Parameter	Sprachen	Besonderheit
StarCoder 2	3B–15B	600+	Trainiert auf The Stack v2
CodeLlama	7B–70B	~20	Infilling & lange Kontexte
DeepSeek-Coder-V2	236B (21B aktiv)	300+	Code + Math kombiniert
Qwen2.5-Coder	0.5B–32B	90+	Bestes Open-Source-Code-Modell pro Größe

Unsere Empfehlung: Qwen2.5-Coder-32B für maximale Qualität, StarCoder 2-3B wenn es lokal auf dem Laptop laufen soll.

Entscheidungsmatrix: Welches Modell für welchen Einsatz?

Dein Use Case	Empfohlenes Modell	Warum
Frontier-Qualität lokal	🆕 Gemma 4 (26B)	GPT-4-Niveau, 85 t/s, 14 GB
Agentic Tasks & Multi-Step-Workflows	Hunter Alpha oder Kimi K2.5	1T Parameter, Agent Swarm
DSGVO-sensible Dokumente analysieren	Qwen3.5-122B lokal	Bestes Verhältnis Qualität/Ressourcen
Code-Generierung & Refactoring	Qwen2.5-Coder-32B	Schlägt größere Modelle bei Code
Komplexes Reasoning	DeepSeek-R1	Chain-of-Thought auf GPT-o1-Niveau
Schnelle lokale Inference	🆕 Nemotron Cascade 2	54 t/s auf Consumer-GPUs
Auf Smartphone/Edge laufen	Gemma 3 (4B) oder Phi-4-Mini	Optimiert für minimale Hardware
RAG mit Firmendaten	Command R+	Speziell für Retrieval-Augmented Generation
Maximaler Kontext (lange Dokumente)	Llama 4 Scout	10M Token Kontextfenster
Europäischer Anbieter gewünscht	Mistral Large 2	Französisches Unternehmen, Apache 2.0
Vollständig offene Trainingsdaten	OLMo 2	Einziges Modell mit komplett offenen Daten
Multi-Agent-Workflows	Kimi K2.5 oder DeepSeek-V3	Agent Swarm mit 100 Sub-Agenten (Kimi)

Hardware-Guide: Was brauchst du wirklich?

RAM / VRAM	Modelle (quantisiert, Q4)	Beispiel-Hardware
8 GB	Phi-4-Mini, Gemma 3 (1B–4B)	MacBook Air M3, RTX 3060
16 GB	Phi-4, Gemma 3 (12B), Gemma 4 (26B, Q4), Yi-1.5-9B	MacBook Pro M3, RTX 4070
32 GB	Mistral 7B, Llama 3.3-8B, Qwen2.5-14B, Nemotron Cascade 2	MacBook Pro M4, RTX 4090
64 GB	Qwen3.5-122B, Mixtral 8x22B	MacBook Pro M4 Max
128 GB+	DeepSeek-R1, Llama 4 Maverick, Kimi K2.5, Gemma 4 (FP16)	Multi-GPU Server, Mac Studio Ultra

Lizenzen: Der Teufel im Detail

Nicht jedes "Open-Source"-Modell ist gleich offen:

Lizenz	Modelle	Kommerzielle Nutzung	Einschränkungen
Apache 2.0	Qwen, Mistral, Yi, Falcon, OLMo	✅ Uneingeschränkt	Keine
MIT	DeepSeek, Phi	✅ Uneingeschränkt	Keine
Llama License	Llama 4, CodeLlama	✅ Bis 700M MAU	Über 700M MAU: Meta-Lizenz nötig
Gemma License	Gemma 3, Gemma 4	✅ Mit Bedingungen	Nutzungsrichtlinien beachten
CC-BY-NC	Command R+	❌ Nicht-kommerziell	Nur Forschung & privat
Modified MIT	Kimi K2.5	✅ Unter 100M MAU	Attribution ab 100M MAU / 20M $ Umsatz
NVIDIA Open	Nemotron Cascade 2	✅ Mit Bedingungen	NVIDIA-Nutzungsbedingungen

Tipp: Für kommerzielle Projekte Apache 2.0 oder MIT bevorzugen. Bei Llama genau prüfen, ob die Nutzungsbedingungen passen.

Wie du Open-Source-LLMs lokal nutzt

Die einfachsten Wege, ein Open-Source-Modell auf deinem Rechner zu starten:

Ollama – Ein Befehl: ollama run gemma4 – fertig
LM Studio – GUI für Nicht-Entwickler, GGUF-Modelle per Drag & Drop
vLLM – Für Production-Deployments mit hohem Throughput
llama.cpp – C++ Runtime, maximale Performance auf CPU

→ Mehr über GGUF, GGML und Safetensors

Unser Take

Die Frage ist nicht mehr "Cloud oder lokal?" – sondern "Welches Modell für welche Aufgabe?". Mit Gemma 4 hat sich die Antwort nochmal verschoben: Frontier-Qualität ist jetzt laptop-sized. Und Metas Muse Spark zeigt: Selbst der lauteste Open-Source-Verfechter geht closed-source, wenn es um Frontier-Performance geht. Unsere Empfehlung:

Gemma 4 lokal als neuer Default für die meisten Aufgaben
Cloud-APIs für Kunden-Chatbots und kreative Aufgaben (Claude, GPT-5)
Open Source lokal für sensible Daten, Bulk-Processing und Prototyping
Hybride Architektur als Ziel: Das beste Modell für jeden Job, unabhängig vom Anbieter
Muse Spark als Warnsignal: Wenn proprietäre Modelle kostenlos werden, aber ohne Datenkontrolle – dann ist Open Source kein Nice-to-have, sondern Versicherung

Die Zukunft gehört nicht einem Modell – sie gehört der Architektur, die flexibel genug ist, jedes Modell zu nutzen.

→ Unsere AI-Services → Meta Muse Spark: Kritische Analyse → Gemma 4: Frontier-Intelligenz auf dem Laptop → Projekt KNUT: Lokale KI-Infrastruktur mit 52 GB VRAM → Hunter Alpha: Das größte kostenlose KI-Modell der Welt → Kimi K2.5: Das Modell hinter Cursors Composer 2 → Qwen3.5 Deep-Dive: 122B Parameter auf deinem Laptop → KI-Agenten im Vergleich