GGUF, GGML, Safetensors – welches Format für dein lokales AI-Setup?

    GGUF, GGML, Safetensors – welches Format für dein lokales AI-Setup?

    Malte LenschMalte Lensch1. März 20264 min Lesezeit
    Till Freitag

    TL;DR: „GGUF ist der aktuelle Standard für lokale AI. GGML ist veraltet. Safetensors ist das sichere Austauschformat der Hugging-Face-Welt. Wer lokal AI nutzen will, muss die Unterschiede kennen."

    — Till Freitag

    Warum dich Dateiformate interessieren sollten

    Du willst ein Open-Source-Modell lokal ausprobieren. Du gehst auf Hugging Face, suchst nach Qwen3.5 oder Llama 4 – und siehst vier verschiedene Downloads: .gguf, .ggml, .safetensors, .bin. Welches brauchst du?

    Die Antwort ist nicht kompliziert, aber sie ist wichtig. Denn das falsche Format heißt: dein Modell startet nicht, läuft langsam, oder – im schlimmsten Fall – führt unsicheren Code aus.

    Die drei Formate im Überblick

    Format Status Haupteinsatz Sicherheit
    GGML ❌ Veraltet Frühes llama.cpp Keine Validierung
    GGUF ✅ Aktuell Lokale Inferenz (CPU/GPU) Metadaten + Validierung
    Safetensors ✅ Aktuell Training & Austausch (GPU) Kein Code-Execution-Risiko

    GGML – der Pionier, der in Rente ist

    GGML war das erste Format, das es ermöglichte, große Sprachmodelle auf normaler Hardware laufen zu lassen. Entwickelt von Georgi Gerganov (daher das "GG") als Teil von llama.cpp.

    Das Problem: GGML hatte kein standardisiertes Metadaten-Schema. Jedes Modell brauchte eigene Konfigurationsdateien. Updates am Format waren breaking changes. Seit August 2023 ist GGML offiziell durch GGUF ersetzt.

    Unser Take: Wenn du irgendwo noch .ggml-Dateien findest, sind sie museumsreif. Nicht verwenden.

    GGUF – der Standard für lokale AI

    GGUF (GPT-Generated Unified Format) ist der Nachfolger von GGML und löst alle dessen Probleme:

    • Alles in einer Datei: Modellgewichte, Tokenizer, Konfiguration – alles gebündelt
    • Versioniert: Format-Updates ohne Breaking Changes möglich
    • Quantisierung eingebaut: Q4_K_M, Q5_K_S, Q8_0 – du wählst den Trade-off zwischen Qualität und RAM-Verbrauch
    • Breite Tool-Unterstützung: llama.cpp, Ollama, LM Studio, GPT4All, Jan – alles spricht GGUF

    Quantisierung – was die Kürzel bedeuten

    Wenn du auf Hugging Face ein GGUF-Modell siehst, stehen oft mehrere Varianten zur Wahl:

    Variante RAM-Bedarf (7B-Modell) Qualität Wann nutzen?
    Q4_K_M ~4.5 GB Gut Standard für Laptops
    Q5_K_M ~5.5 GB Sehr gut Wenn RAM reicht
    Q6_K ~6.5 GB Exzellent Qualitätsfokus
    Q8_0 ~8 GB Nahezu verlustfrei Wenn du 64 GB RAM hast
    F16 ~14 GB Original Nur für Vergleichstests

    Faustregel: Q4_K_M ist der Sweet Spot für die meisten Use Cases. Weniger als Q4 merkst du in der Ausgabequalität.

    Safetensors – das sichere Austauschformat

    Safetensors wurde von Hugging Face entwickelt und löst ein konkretes Sicherheitsproblem: Das alte PyTorch-Format (.bin / .pt) nutzt Python's pickle zum Serialisieren. Pickle kann beliebigen Code ausführen. Das heißt: Ein manipuliertes Modell könnte beim Laden Schadcode auf deinem Rechner starten.

    Safetensors macht das unmöglich:

    • Kein Code-Execution: Reine Daten, kein ausführbarer Code
    • Schnelles Laden: Memory-Mapped I/O – das Modell wird nicht komplett in den RAM kopiert
    • Framework-agnostisch: Funktioniert mit PyTorch, TensorFlow, JAX, Flax

    Wann Safetensors, wann GGUF?

    Szenario Format
    Modell lokal auf CPU/Laptop laufen lassen GGUF
    Modell fine-tunen oder weitertrainieren Safetensors
    Modell auf Hugging Face teilen Safetensors
    Modell in Ollama oder LM Studio laden GGUF
    Modell auf GPU-Server deployen (vLLM, TGI) Safetensors

    Kurzfassung: Safetensors ist das Format für die GPU-Welt (Training, Server). GGUF ist das Format für die CPU-Welt (Laptop, lokale Inferenz).

    Die Rolle von Open Source

    Hier wird es strategisch interessant. Alle drei Formate sind Open Source. Das bedeutet:

    1. Kein Vendor Lock-in: Du bist nicht an einen Anbieter gebunden. Ein GGUF-Modell läuft in jedem Tool, das GGUF unterstützt.
    2. Community-getrieben: Die Quantisierung wird oft von der Community gemacht (z.B. TheBloke, bartowski auf Hugging Face). Du profitierst von tausenden Freiwilligen.
    3. Transparenz: Du kannst prüfen, was in der Datei steckt. Bei proprietären APIs musst du dem Anbieter vertrauen.
    4. Kombinierbar: Safetensors-Modell herunterladen → mit llama.cpp zu GGUF konvertieren → lokal nutzen. Der Workflow ist komplett offen.

    Warum das für Unternehmen relevant ist

    Open-Source-Formate entkoppeln das Modell vom Tool. Das heißt:

    • Du kannst heute Ollama nutzen und morgen zu LM Studio wechseln
    • Du kannst Modelle von verschiedenen Anbietern (Meta, Alibaba, Mistral) im selben Setup betreiben
    • Du bist nicht an ein Ökosystem gebunden – anders als bei OpenAI, Anthropic oder Google

    Der praktische Workflow: Von Hugging Face auf deinen Laptop

    1. Modell wählen: Gehe auf huggingface.co und suche dein Modell
    2. Format prüfen: Für lokale Nutzung → GGUF-Tab suchen. Oft gibt es Community-Quantisierungen
    3. Quantisierung wählen: Q4_K_M für Standard, Q5_K_M wenn RAM da ist
    4. Tool installieren: Ollama (ollama pull model), LM Studio (Drag & Drop), oder llama.cpp (CLI)
    5. Loslegen: Das Modell läuft. Keine API-Keys, keine Cloud, keine laufenden Kosten

    Was jetzt zu tun ist

    1. Verstehe den Unterschied: GGUF = lokal nutzen, Safetensors = trainieren/teilen, GGML = vergessen
    2. Teste mit GGUF: Lade ein Q4_K_M-Modell in Ollama oder LM Studio – dauert 5 Minuten
    3. Plane dein Setup: Für sensible Daten ist lokal+GGUF der DSGVO-konforme Weg
    4. Bleib formatflexibel: Open Source heißt, du kannst jederzeit konvertieren und wechseln

    Fazit

    Dateiformate sind nicht sexy. Aber sie entscheiden darüber, ob dein lokales AI-Setup funktioniert oder nicht. GGUF hat sich als Standard durchgesetzt, Safetensors als sicheres Austauschformat. GGML ist Geschichte.

    Das Beste daran: Alles ist Open Source. Du bist nicht abhängig von einem Anbieter, einem Tool oder einem Format. Du wählst das, was zu deinem Use Case passt – und kannst jederzeit wechseln.

    → Wie Qwen3.5 auf deinem Laptop läuft → Mehr über unsere AI-Services

    TeilenLinkedInWhatsAppE-Mail

    Verwandte Artikel

    Projekt KNUT: 52 GB VRAM, null Cloud – lokale AI-Infrastruktur im Deep Dive
    10. April 20264 min

    Projekt KNUT: 52 GB VRAM, null Cloud – lokale AI-Infrastruktur im Deep Dive

    Ein Mac Mini M4, zwei NVIDIA-GPUs, 52 GB VRAM – Projekt KNUT vereint heterogene Hardware zu einer lokalen AI-Infrastrukt…

    Weiterlesen
    122 Milliarden Parameter auf deinem Laptop – was Qwen3.5 für dein Business bedeutet
    28. Februar 20263 min

    122 Milliarden Parameter auf deinem Laptop – was Qwen3.5 für dein Business bedeutet

    Alibabas Qwen3.5 schlägt GPT-5-mini in fast allen Benchmarks – und läuft lokal auf einem Laptop. Was das für Unternehmen…

    Weiterlesen
    Hunter Alpha enttarnt: Nicht DeepSeek V4, sondern Xiaomis MiMo-V2-Pro
    13. März 20264 min

    Hunter Alpha enttarnt: Nicht DeepSeek V4, sondern Xiaomis MiMo-V2-Pro

    Hunter Alpha war nicht DeepSeek V4 – sondern Xiaomis MiMo-V2-Pro. Wir korrigieren unsere Analyse, ordnen ein was passier…

    Weiterlesen
    Open-Source-LLMs im Vergleich 2026 – 25+ Modelle, die du kennen solltestDeep Dive
    7. März 202610 min

    Open-Source-LLMs im Vergleich 2026 – 25+ Modelle, die du kennen solltest

    Von Llama über Qwen bis Gemma 4: Alle wichtigen Open-Source-LLMs im Überblick – mit GitHub-Stars, Parametern, Lizenzen u…

    Weiterlesen
    Geopolitische KI-Landschaft zwischen westlicher und östlicher TechnologieDeep Dive
    13. April 20268 min

    Chinas KI-Offensive: Von Hunter Alpha bis DeepSeek V4 auf Huawei-Chips

    Ein anonymes 1T-Modell, eine Verwechslung mit DeepSeek, und die Enthüllung, dass Xiaomi dahintersteckt. Gleichzeitig ste…

    Weiterlesen
    Gemma 4 KI-Modell läuft auf kompaktem Mini-PC – Frontier-Intelligenz wird lokal
    6. April 20264 min

    Gemma 4: Frontier-Intelligenz auf dem Laptop – der Hype ist real

    Googles Gemma 4 liefert GPT-4-Niveau in 14 GB. 85 Tokens pro Sekunde auf Consumer-Hardware, 256K Kontext, Function Calli…

    Weiterlesen
    Kimi K2.5: Das chinesische Open-Weight-Modell hinter Cursors Composer 2
    26. März 20264 min

    Kimi K2.5: Das chinesische Open-Weight-Modell hinter Cursors Composer 2

    Cursors Composer 2 basiert heimlich auf Moonshot AIs Kimi K2.5 – einem 1-Billionen-Parameter Open-Weight-Modell aus Peki…

    Weiterlesen
    OpenClaw Preisschock: So vermeidest du die $500-Rechnung
    5. April 20262 min

    OpenClaw Preisschock: So vermeidest du die $500-Rechnung

    Anthropic streicht die Third-Party-Tool-Abdeckung unter Claude-Abos. Wer OpenClaw ohne Vorbereitung betreibt, zahlt bald…

    Weiterlesen
    OpenFang Agent Operating System Architektur mit 7 autonomen Hands und Rust-Kern
    14. März 20265 min

    OpenFang Deep Dive – Das erste Agent Operating System im Detail

    OpenFang ist kein Agent-Framework – es ist ein Agent Operating System. 7 autonome Hands, 38 Tools, 40 Messaging-Kanäle. …

    Weiterlesen