Open-Source-LLMs im Vergleich 2026 – 25+ Modelle, die du kennen solltest

    Open-Source-LLMs im Vergleich 2026 – 25+ Modelle, die du kennen solltest

    Malte LenschMalte Lensch7. März 2026Updated: April 13, 202610 min readDeep Dive
    Till Freitag

    TL;DR: „25+ Open-Source-LLMs im direkten Vergleich: Gemma 4 (26B, 85 t/s auf Consumer-Hardware), Hunter Alpha (1T), Llama 4, Qwen3.5, DeepSeek-R1, Nemotron Cascade 2, Mistral und viele mehr. Mit GitHub-Stats, Hardware-Anforderungen und Entscheidungshilfe für den richtigen Einsatz."

    — Till Freitag

    Stand: April 2026 – GitHub-Stars und Modellversionen werden regelmäßig aktualisiert. Neu: Muse Spark Einordnung, Gemma 4, Nemotron Cascade 2 und Kimi K2.5.

    Warum Open Source bei LLMs jetzt zählt

    2025 war das Jahr, in dem Open-Source-LLMs die Lücke zu proprietären Modellen geschlossen haben. 2026 sind sie in vielen Bereichen gleichauf – oder besser. Für Unternehmen bedeutet das: Mehr Kontrolle, weniger Abhängigkeit, bessere DSGVO-Compliance.

    Dieser Artikel gibt dir einen vollständigen Überblick über die wichtigsten Open-Source-LLMs – mit echten GitHub-Daten, Hardware-Anforderungen und klaren Empfehlungen.

    Die große Übersichtstabelle

    Modell Anbieter Parameter GitHub ⭐ Lizenz Besonderheit
    Gemma 4 🆕 Google 26B (MoE) 8.500+ Gemma License 85 t/s auf Consumer-Hardware, 256K Kontext
    Nemotron Cascade 2 🆕 NVIDIA 30B 3.500+ NVIDIA Open ~54 t/s lokal, optimiert für Inference
    Hunter Alpha Anonym (via OpenRouter) 1T (~32B aktiv) Unbekannt Größtes kostenloses Modell, 1M Kontext
    Kimi K2.5 🆕 Moonshot AI 1T (32B aktiv) 5.000+ Modified MIT Agent Swarm (100 Sub-Agenten), multimodal
    Llama 4 Scout Meta 109B (17B aktiv) 7.500+ Llama License 10M Token Kontext
    Llama 4 Maverick Meta 400B (17B aktiv) 7.500+ Llama License Bestes MoE-Modell von Meta
    Qwen3.5-122B Alibaba 122B (10B aktiv) 27.000+ Apache 2.0 Schlägt GPT-5-mini
    Qwen3-235B Alibaba 235B 27.000+ Apache 2.0 Thinking-Modus
    DeepSeek-R1 DeepSeek 671B (37B aktiv) 102.000+ MIT Chain-of-Thought Reasoning
    DeepSeek-V3 DeepSeek 671B (37B aktiv) 102.000+ MIT Multi-Token-Prediction
    Mistral Large 2 Mistral 123B 10.700+ Apache 2.0 128k Kontext, 80+ Sprachen
    Mixtral 8x22B Mistral 141B (39B aktiv) 10.700+ Apache 2.0 Sparse MoE Pioneer
    Gemma 3 Google 1B–27B 6.800+ Gemma License Multimodal, on-device
    Phi-4 Microsoft 14B 12.000+ MIT Reasoning auf kleiner Hardware
    Phi-4-Mini Microsoft 3.8B 12.000+ MIT Smartphone-tauglich
    Command R+ Cohere 104B 3.200+ CC-BY-NC RAG-optimiert, 10 Sprachen
    Yi-1.5 01.AI 6B–34B 7.800+ Apache 2.0 Starke Mehrsprachigkeit
    DBRX Databricks 132B (36B aktiv) 3.200+ Databricks Open Enterprise MoE
    Falcon 3 TII 1B–10B 2.000+ Apache 2.0 UAE-Forschungsprojekt
    StableLM 2 Stability AI 1.6B–12B 8.500+ Stability License Kompakt & effizient
    InternLM 3 Shanghai AI Lab 8B 7.200+ Apache 2.0 Long Context bis 1M
    OLMo 2 AI2 7B–13B 6.400+ Apache 2.0 Vollständig offen (Daten + Code)
    Jamba 1.5 AI21 Labs 52B (12B aktiv) 900+ Apache 2.0 Mamba-Transformer Hybrid
    StarCoder 2 BigCode 3B–15B 2.000+ BigCode OpenRAIL-M Code-Spezialist
    CodeLlama Meta 7B–70B 16.400+ Llama License Code-Generierung & Infilling
    DeepSeek-Coder-V2 DeepSeek 236B (21B aktiv) 12.000+ MIT Code + Math Spezialist
    Qwen2.5-Coder Alibaba 0.5B–32B 27.000+ Apache 2.0 Code-Completion, multi-lang

    Die Top-Modelle im Detail

    🔥 Gemma 4 (Google) 🆕

    Googles neues MoE-Flaggschiff: 26B Parameter, nur 14 GB groß, 85 Tokens pro Sekunde auf Consumer-Hardware. Das Modell, das die Grenze zwischen Cloud- und lokaler Intelligenz endgültig aufhebt. → Unser Deep-Dive zu Gemma 4

    Stärken:

    • 85 t/s auf einem AMD Ryzen AI MAX+ mit 128 GB RAM
    • 256K Kontextfenster für lange Dokument-Analyse
    • Function Calling funktioniert zuverlässig
    • GPT-4-Qualität bei komplexem Reasoning – lokal, ohne Cloud

    Schwächen:

    • Gemma License (nicht reines Apache 2.0)
    • MoE-Architektur – nicht alle Frameworks unterstützen das nativ
    • Noch kein Video-Input

    GitHub: github.com/google/gemma.cpp · 8.500+ ⭐


    🐉 Hunter Alpha → Xiaomi MiMo-V2-Pro (ehem. "vermutlich DeepSeek V4")

    Update April 2026: Hunter Alpha wurde am 18. März 2026 als Xiaomis MiMo-V2-Pro enttarnt – es war nie DeepSeek V4. Das Team wird von Luo Fuli geleitet, einem Ex-DeepSeek-Ingenieur. → Die vollständige Geschichte · → Chinas KI-Offensive: Die Analyse

    Das größte auf OpenRouter verfügbare KI-Modell: >1 Billion Parameter, mit ~42B aktiven Parametern pro Token. Ursprünglich anonym gelauncht am 11. März 2026, jetzt kommerziell unter Xiaomis MiMo-Brand.

    Stärken:

    • 1T Parameter mit ~42B aktiv (MoE) – größtes verfügbares Modell

    • 1M Token Kontextfenster
    • ClawEval 61.5 – starke Agentic-Performance
    • Bekannter Provider (Xiaomi, börsennotiert)
    • Open Source geplant nach Stabilisierung

    Schwächen:

    • Nicht mehr kostenlos ($1–2 / MTok Input, $3–6 / MTok Output)
    • Nicht lokal ausführbar (vorerst nur via OpenRouter API)
    • Datenschutz: OpenRouter-Logging-Policies gelten weiterhin

    Zugang: openrouter.ai/xiaomi/mimo-v2-pro


    🌙 Kimi K2.5 (Moonshot AI) 🆕

    Moonshot AIs Flaggschiff aus Peking: 1 Billion Parameter mit MoE (32B aktiv), 384 Experten und einer einzigartigen Agent-Swarm-Architektur. → Die Cursor-Kontroverse: Warum Composer 2 auf Kimi K2.5 läuft

    Stärken:

    • Agent Swarm: koordiniert bis zu 100 Sub-Agenten für komplexe Tasks
    • Multimodal (Text + Bild + Video)
    • AIME 2025: 96,1 % – schlägt alle Frontier-Modelle bei Math-Reasoning
    • Modified MIT – kommerziell frei unter 100M MAU

    Schwächen:

    • Sehr groß – lokaler Einsatz nur mit High-End-Hardware (128 GB+ RAM)
    • Chinesischer Anbieter – Compliance-Thema
    • Modified MIT erfordert Attribution ab bestimmten Schwellen

    GitHub: github.com/MoonshotAI/Kimi-K2.5 · 5.000+ ⭐


    ⚡ Nemotron Cascade 2 (NVIDIA) 🆕

    NVIDIAs neues Inference-optimiertes Modell: 30B Parameter, läuft mit ~54 t/s auf Projekt KNUT (RTX 4060 Ti + RTX 3060). Speziell für lokale, schnelle Inference konzipiert. → Projekt KNUT: Lokale KI-Infrastruktur

    Stärken:

    • 54 t/s auf Consumer-GPUs – 15x schneller als menschliche Sprache
    • Qualitativ vergleichbar mit GPT-4o mini
    • Optimiert für NVIDIA-Hardware (CUDA)

    Schwächen:

    • NVIDIA-Lizenz (nicht Apache 2.0)
    • Primär auf NVIDIA-GPUs ausgelegt
    • Noch relativ kleine Community

    🦙 Llama 4 (Meta)

    Metas neueste Generation bringt zwei Varianten: Scout (109B, 10M Kontext) und Maverick (400B, für Qualität). Beide nutzen Mixture-of-Experts – nur 17B Parameter sind pro Query aktiv.

    Stärken:

    • Größtes Kontextfenster aller Open-Source-Modelle (10M Tokens bei Scout)
    • Starke Community und Ecosystem
    • Multimodal (Text + Bild)

    Schwächen:

    • Llama License ist nicht "echtes" Open Source (kommerzielle Einschränkungen bei >700M MAU)
    • Große Modelle brauchen erhebliche Hardware

    GitHub: github.com/meta-llama/llama-models · 7.500+ ⭐


    ⚠️ Muse Spark (Meta) – Proprietäre Referenz

    Wichtig: Muse Spark ist kein Open-Source-Modell. Wir führen es hier als proprietäre Referenz auf, weil es Metas strategische Abkehr von Open Source markiert – und direkt zeigt, wo die offenen Alternativen bereits besser sind.

    Muse Spark ist das erste Modell der neuen Meta Superintelligence Labs (MSL) und seit April 2026 kostenlos für alle Meta-Nutzer verfügbar. → Unsere kritische Analyse zu Muse Spark

    Wo Muse Spark stark ist (und Open Source noch nicht):

    • HealthBench Hard: 42.8 – besser als GPT-5.4 (40.1), kein Open-Source-Modell kommt nah
    • Humanity's Last Exam: 50.2% – der Contemplating-Modus orchestriert mehrere Agenten parallel
    • Kostenlos für 3+ Milliarden Meta-Nutzer

    Wo Open Source Muse Spark schlägt:

    • Coding: Terminal-Bench 59.0 – selbst Qwen2.5-Coder-32B liefert für lokale Code-Tasks bessere Ergebnisse
    • Abstract Reasoning: ARC-AGI-2 42.5 vs. GPT-5.4 76.1 – ein massiver Rückstand
    • Agentic Tasks: Kimi K2.5 mit Agent Swarm ist für autonome Multi-Step-Workflows die bessere Wahl
    • Datenkontrolle: Muse Spark läuft in Metas Cloud – keine Self-Hosting-Option

    Der strategische Bruch: Meta hat jahrelang Open Source als Differenzierungsmerkmal positioniert. Muse Spark ist closed-source ohne Zeitplan für eine Weights-Veröffentlichung. Für die Open-Source-Community bedeutet das: Llama bleibt vorerst Metas offenes Standbein, aber das beste Modell des Unternehmens ist nicht mehr frei zugänglich.


    🌐 Qwen3.5 (Alibaba)

    Das aktuell stärkste Open-Source-MoE-Modell. 122B Parameter, davon nur 10B aktiv – läuft auf einem MacBook mit 64 GB RAM. → Unser Deep-Dive zu Qwen3.5

    Stärken:

    • Schlägt GPT-5-mini in den meisten Benchmarks
    • Apache 2.0 – echtes Open Source
    • 262k Kontextfenster (erweiterbar auf 1M)

    Schwächen:

    • Kein Multimodal (nur Text)
    • Chinesischer Anbieter – für manche Unternehmen ein Compliance-Thema

    GitHub: github.com/QwenLM/Qwen3 · 27.000+ ⭐


    🔬 DeepSeek-R1

    Das Modell, das Anfang 2025 die AI-Welt erschüttert hat. 671B Parameter mit MoE (37B aktiv), spezialisiert auf Chain-of-Thought Reasoning.

    Stärken:

    • Reasoning-Qualität auf GPT-o1-Niveau
    • MIT-Lizenz – maximale Freiheit
    • "Thinking"-Modus zeigt den Denkprozess

    Schwächen:

    • Sehr groß – lokal nur mit High-End-Hardware
    • Chinesischer Anbieter

    GitHub: github.com/deepseek-ai/DeepSeek-V3 · 102.000+ ⭐


    🌊 Mistral Large 2

    Mistrals Flaggschiff: 123B Parameter, 128k Kontext, über 80 Sprachen. Das europäische Gegengewicht zu den US- und China-Modellen.

    Stärken:

    • Europäischer Anbieter (Paris) – einfacheres DSGVO-Narrativ
    • Starke Mehrsprachigkeit
    • Apache 2.0

    Schwächen:

    • Kleinere Community als Llama oder Qwen
    • Weniger spezialisierte Varianten

    GitHub: github.com/mistralai/mistral-inference · 10.700+ ⭐


    💎 Gemma 3 (Google)

    Googles offene Modellreihe von 1B bis 27B – optimiert für On-Device-Nutzung. Multimodal ab 4B. Inzwischen Vorgänger von Gemma 4, aber weiterhin relevant für Edge-Deployments.

    Stärken:

    • Multimodal (Text + Bild) auch in kleinen Varianten
    • Läuft auf Smartphones und Raspberry Pi
    • ShieldGemma für Safety

    Schwächen:

    • Gemma License hat Nutzungsrichtlinien (kein reines Apache 2.0)
    • Maximale Größe nur 27B

    GitHub: github.com/google/gemma.cpp · 6.800+ ⭐


    🧠 Phi-4 (Microsoft)

    Microsofts "Small Language Model" mit 14B Parametern, das größere Modelle bei Reasoning-Tasks schlägt.

    Stärken:

    • Herausragende Qualität pro Parameter
    • MIT-Lizenz
    • Läuft auf Consumer-Hardware

    Schwächen:

    • Kein Multimodal in der Basis-Variante
    • Kleines Kontextfenster (16k)

    GitHub: github.com/microsoft/phi-4 · 12.000+ ⭐


    Coding-LLMs im Vergleich

    Für Entwickler gibt es spezialisierte Code-Modelle:

    Modell Parameter Sprachen Besonderheit
    StarCoder 2 3B–15B 600+ Trainiert auf The Stack v2
    CodeLlama 7B–70B ~20 Infilling & lange Kontexte
    DeepSeek-Coder-V2 236B (21B aktiv) 300+ Code + Math kombiniert
    Qwen2.5-Coder 0.5B–32B 90+ Bestes Open-Source-Code-Modell pro Größe

    Unsere Empfehlung: Qwen2.5-Coder-32B für maximale Qualität, StarCoder 2-3B wenn es lokal auf dem Laptop laufen soll.

    Entscheidungsmatrix: Welches Modell für welchen Einsatz?

    Dein Use Case Empfohlenes Modell Warum
    Frontier-Qualität lokal 🆕 Gemma 4 (26B) GPT-4-Niveau, 85 t/s, 14 GB
    Agentic Tasks & Multi-Step-Workflows Hunter Alpha oder Kimi K2.5 1T Parameter, Agent Swarm
    DSGVO-sensible Dokumente analysieren Qwen3.5-122B lokal Bestes Verhältnis Qualität/Ressourcen
    Code-Generierung & Refactoring Qwen2.5-Coder-32B Schlägt größere Modelle bei Code
    Komplexes Reasoning DeepSeek-R1 Chain-of-Thought auf GPT-o1-Niveau
    Schnelle lokale Inference 🆕 Nemotron Cascade 2 54 t/s auf Consumer-GPUs
    Auf Smartphone/Edge laufen Gemma 3 (4B) oder Phi-4-Mini Optimiert für minimale Hardware
    RAG mit Firmendaten Command R+ Speziell für Retrieval-Augmented Generation
    Maximaler Kontext (lange Dokumente) Llama 4 Scout 10M Token Kontextfenster
    Europäischer Anbieter gewünscht Mistral Large 2 Französisches Unternehmen, Apache 2.0
    Vollständig offene Trainingsdaten OLMo 2 Einziges Modell mit komplett offenen Daten
    Multi-Agent-Workflows Kimi K2.5 oder DeepSeek-V3 Agent Swarm mit 100 Sub-Agenten (Kimi)

    Hardware-Guide: Was brauchst du wirklich?

    RAM / VRAM Modelle (quantisiert, Q4) Beispiel-Hardware
    8 GB Phi-4-Mini, Gemma 3 (1B–4B) MacBook Air M3, RTX 3060
    16 GB Phi-4, Gemma 3 (12B), Gemma 4 (26B, Q4), Yi-1.5-9B MacBook Pro M3, RTX 4070
    32 GB Mistral 7B, Llama 3.3-8B, Qwen2.5-14B, Nemotron Cascade 2 MacBook Pro M4, RTX 4090
    64 GB Qwen3.5-122B, Mixtral 8x22B MacBook Pro M4 Max
    128 GB+ DeepSeek-R1, Llama 4 Maverick, Kimi K2.5, Gemma 4 (FP16) Multi-GPU Server, Mac Studio Ultra

    Lizenzen: Der Teufel im Detail

    Nicht jedes "Open-Source"-Modell ist gleich offen:

    Lizenz Modelle Kommerzielle Nutzung Einschränkungen
    Apache 2.0 Qwen, Mistral, Yi, Falcon, OLMo ✅ Uneingeschränkt Keine
    MIT DeepSeek, Phi ✅ Uneingeschränkt Keine
    Llama License Llama 4, CodeLlama ✅ Bis 700M MAU Über 700M MAU: Meta-Lizenz nötig
    Gemma License Gemma 3, Gemma 4 ✅ Mit Bedingungen Nutzungsrichtlinien beachten
    CC-BY-NC Command R+ ❌ Nicht-kommerziell Nur Forschung & privat
    Modified MIT Kimi K2.5 ✅ Unter 100M MAU Attribution ab 100M MAU / 20M $ Umsatz
    NVIDIA Open Nemotron Cascade 2 ✅ Mit Bedingungen NVIDIA-Nutzungsbedingungen

    Tipp: Für kommerzielle Projekte Apache 2.0 oder MIT bevorzugen. Bei Llama genau prüfen, ob die Nutzungsbedingungen passen.

    Wie du Open-Source-LLMs lokal nutzt

    Die einfachsten Wege, ein Open-Source-Modell auf deinem Rechner zu starten:

    1. Ollama – Ein Befehl: ollama run gemma4 – fertig
    2. LM Studio – GUI für Nicht-Entwickler, GGUF-Modelle per Drag & Drop
    3. vLLM – Für Production-Deployments mit hohem Throughput
    4. llama.cpp – C++ Runtime, maximale Performance auf CPU

    → Mehr über GGUF, GGML und Safetensors

    Unser Take

    Die Frage ist nicht mehr "Cloud oder lokal?" – sondern "Welches Modell für welche Aufgabe?". Mit Gemma 4 hat sich die Antwort nochmal verschoben: Frontier-Qualität ist jetzt laptop-sized. Und Metas Muse Spark zeigt: Selbst der lauteste Open-Source-Verfechter geht closed-source, wenn es um Frontier-Performance geht. Unsere Empfehlung:

    • Gemma 4 lokal als neuer Default für die meisten Aufgaben
    • Cloud-APIs für Kunden-Chatbots und kreative Aufgaben (Claude, GPT-5)
    • Open Source lokal für sensible Daten, Bulk-Processing und Prototyping
    • Hybride Architektur als Ziel: Das beste Modell für jeden Job, unabhängig vom Anbieter
    • Muse Spark als Warnsignal: Wenn proprietäre Modelle kostenlos werden, aber ohne Datenkontrolle – dann ist Open Source kein Nice-to-have, sondern Versicherung

    Die Zukunft gehört nicht einem Modell – sie gehört der Architektur, die flexibel genug ist, jedes Modell zu nutzen.


    → Unsere AI-Services → Meta Muse Spark: Kritische Analyse → Gemma 4: Frontier-Intelligenz auf dem Laptop → Projekt KNUT: Lokale KI-Infrastruktur mit 52 GB VRAM → Hunter Alpha: Das größte kostenlose KI-Modell der Welt → Kimi K2.5: Das Modell hinter Cursors Composer 2 → Qwen3.5 Deep-Dive: 122B Parameter auf deinem Laptop → KI-Agenten im Vergleich

    TeilenLinkedInWhatsAppE-Mail

    Related Articles

    122 Milliarden Parameter auf deinem Laptop – was Qwen3.5 für dein Business bedeutet
    February 28, 20263 min

    122 Milliarden Parameter auf deinem Laptop – was Qwen3.5 für dein Business bedeutet

    Alibabas Qwen3.5 schlägt GPT-5-mini in fast allen Benchmarks – und läuft lokal auf einem Laptop. Was das für Unternehmen…

    Read more
    Projekt KNUT: 52 GB VRAM, null Cloud – lokale AI-Infrastruktur im Deep Dive
    April 10, 20264 min

    Projekt KNUT: 52 GB VRAM, null Cloud – lokale AI-Infrastruktur im Deep Dive

    Ein Mac Mini M4, zwei NVIDIA-GPUs, 52 GB VRAM – Projekt KNUT vereint heterogene Hardware zu einer lokalen AI-Infrastrukt…

    Read more
    Hunter Alpha enttarnt: Nicht DeepSeek V4, sondern Xiaomis MiMo-V2-Pro
    March 13, 20264 min

    Hunter Alpha enttarnt: Nicht DeepSeek V4, sondern Xiaomis MiMo-V2-Pro

    Hunter Alpha war nicht DeepSeek V4 – sondern Xiaomis MiMo-V2-Pro. Wir korrigieren unsere Analyse, ordnen ein was passier…

    Read more
    Geopolitische KI-Landschaft zwischen westlicher und östlicher TechnologieDeep Dive
    April 13, 20268 min

    Chinas KI-Offensive: Von Hunter Alpha bis DeepSeek V4 auf Huawei-Chips

    Ein anonymes 1T-Modell, eine Verwechslung mit DeepSeek, und die Enthüllung, dass Xiaomi dahintersteckt. Gleichzeitig ste…

    Read more
    Gemma 4 KI-Modell läuft auf kompaktem Mini-PC – Frontier-Intelligenz wird lokal
    April 6, 20264 min

    Gemma 4: Frontier-Intelligenz auf dem Laptop – der Hype ist real

    Googles Gemma 4 liefert GPT-4-Niveau in 14 GB. 85 Tokens pro Sekunde auf Consumer-Hardware, 256K Kontext, Function Calli…

    Read more
    OpenFang Agent Operating System Architektur mit 7 autonomen Hands und Rust-Kern
    March 14, 20265 min

    OpenFang Deep Dive – Das erste Agent Operating System im Detail

    OpenFang ist kein Agent-Framework – es ist ein Agent Operating System. 7 autonome Hands, 38 Tools, 40 Messaging-Kanäle. …

    Read more
    ZeroClaw KI-Agent in Rust – minimaler Footprint, maximale Performance
    March 14, 20265 min

    ZeroClaw Deep Dive – NullClaws Nachfolger in Rust im Detail

    ZeroClaw ist der Rust-Nachfolger von NullClaw – mit 26.800+ GitHub Stars, Single-Binary-Deployment und 99% kleinerem Foo…

    Read more
    GGUF, GGML, Safetensors – welches Format für dein lokales AI-Setup?
    March 1, 20264 min

    GGUF, GGML, Safetensors – welches Format für dein lokales AI-Setup?

    Wer AI lokal nutzen will, stolpert schnell über Dateiformate. GGUF, GGML, Safetensors – was ist was, wann brauchst du we…

    Read more
    Die besten OpenClaw-Alternativen 2026 – von NanoClaw bis NullClawDeep Dive
    February 21, 20269 min

    Die besten OpenClaw-Alternativen 2026 – von NanoClaw bis NullClaw

    OpenClaw hat 160.000+ GitHub Stars – aber nicht jeder braucht 430.000 Zeilen Code. Wir vergleichen die besten Alternativ…

    Read more