GGUF, GGML, Safetensors – welches Format für dein lokales AI-Setup?

    GGUF, GGML, Safetensors – welches Format für dein lokales AI-Setup?

    1. März 20264 min read
    Till Freitag

    TL;DR: „GGUF ist der aktuelle Standard für lokale AI. GGML ist veraltet. Safetensors ist das sichere Austauschformat der Hugging-Face-Welt. Wer lokal AI nutzen will, muss die Unterschiede kennen."

    — Till Freitag

    Warum dich Dateiformate interessieren sollten

    Du willst ein Open-Source-Modell lokal ausprobieren. Du gehst auf Hugging Face, suchst nach Qwen3.5 oder Llama 4 – und siehst vier verschiedene Downloads: .gguf, .ggml, .safetensors, .bin. Welches brauchst du?

    Die Antwort ist nicht kompliziert, aber sie ist wichtig. Denn das falsche Format heißt: dein Modell startet nicht, läuft langsam, oder – im schlimmsten Fall – führt unsicheren Code aus.

    Die drei Formate im Überblick

    FormatStatusHaupteinsatzSicherheit
    GGML❌ VeraltetFrühes llama.cppKeine Validierung
    GGUF✅ AktuellLokale Inferenz (CPU/GPU)Metadaten + Validierung
    Safetensors✅ AktuellTraining & Austausch (GPU)Kein Code-Execution-Risiko

    GGML – der Pionier, der in Rente ist

    GGML war das erste Format, das es ermöglichte, große Sprachmodelle auf normaler Hardware laufen zu lassen. Entwickelt von Georgi Gerganov (daher das "GG") als Teil von llama.cpp.

    Das Problem: GGML hatte kein standardisiertes Metadaten-Schema. Jedes Modell brauchte eigene Konfigurationsdateien. Updates am Format waren breaking changes. Seit August 2023 ist GGML offiziell durch GGUF ersetzt.

    Unser Take: Wenn du irgendwo noch .ggml-Dateien findest, sind sie museumsreif. Nicht verwenden.

    GGUF – der Standard für lokale AI

    GGUF (GPT-Generated Unified Format) ist der Nachfolger von GGML und löst alle dessen Probleme:

    • Alles in einer Datei: Modellgewichte, Tokenizer, Konfiguration – alles gebündelt
    • Versioniert: Format-Updates ohne Breaking Changes möglich
    • Quantisierung eingebaut: Q4_K_M, Q5_K_S, Q8_0 – du wählst den Trade-off zwischen Qualität und RAM-Verbrauch
    • Breite Tool-Unterstützung: llama.cpp, Ollama, LM Studio, GPT4All, Jan – alles spricht GGUF

    Quantisierung – was die Kürzel bedeuten

    Wenn du auf Hugging Face ein GGUF-Modell siehst, stehen oft mehrere Varianten zur Wahl:

    VarianteRAM-Bedarf (7B-Modell)QualitätWann nutzen?
    Q4_K_M~4.5 GBGutStandard für Laptops
    Q5_K_M~5.5 GBSehr gutWenn RAM reicht
    Q6_K~6.5 GBExzellentQualitätsfokus
    Q8_0~8 GBNahezu verlustfreiWenn du 64 GB RAM hast
    F16~14 GBOriginalNur für Vergleichstests

    Faustregel: Q4_K_M ist der Sweet Spot für die meisten Use Cases. Weniger als Q4 merkst du in der Ausgabequalität.

    Safetensors – das sichere Austauschformat

    Safetensors wurde von Hugging Face entwickelt und löst ein konkretes Sicherheitsproblem: Das alte PyTorch-Format (.bin / .pt) nutzt Python's pickle zum Serialisieren. Pickle kann beliebigen Code ausführen. Das heißt: Ein manipuliertes Modell könnte beim Laden Schadcode auf deinem Rechner starten.

    Safetensors macht das unmöglich:

    • Kein Code-Execution: Reine Daten, kein ausführbarer Code
    • Schnelles Laden: Memory-Mapped I/O – das Modell wird nicht komplett in den RAM kopiert
    • Framework-agnostisch: Funktioniert mit PyTorch, TensorFlow, JAX, Flax

    Wann Safetensors, wann GGUF?

    SzenarioFormat
    Modell lokal auf CPU/Laptop laufen lassenGGUF
    Modell fine-tunen oder weitertrainierenSafetensors
    Modell auf Hugging Face teilenSafetensors
    Modell in Ollama oder LM Studio ladenGGUF
    Modell auf GPU-Server deployen (vLLM, TGI)Safetensors

    Kurzfassung: Safetensors ist das Format für die GPU-Welt (Training, Server). GGUF ist das Format für die CPU-Welt (Laptop, lokale Inferenz).

    Die Rolle von Open Source

    Hier wird es strategisch interessant. Alle drei Formate sind Open Source. Das bedeutet:

    1. Kein Vendor Lock-in: Du bist nicht an einen Anbieter gebunden. Ein GGUF-Modell läuft in jedem Tool, das GGUF unterstützt.
    2. Community-getrieben: Die Quantisierung wird oft von der Community gemacht (z.B. TheBloke, bartowski auf Hugging Face). Du profitierst von tausenden Freiwilligen.
    3. Transparenz: Du kannst prüfen, was in der Datei steckt. Bei proprietären APIs musst du dem Anbieter vertrauen.
    4. Kombinierbar: Safetensors-Modell herunterladen → mit llama.cpp zu GGUF konvertieren → lokal nutzen. Der Workflow ist komplett offen.

    Warum das für Unternehmen relevant ist

    Open-Source-Formate entkoppeln das Modell vom Tool. Das heißt:

    • Du kannst heute Ollama nutzen und morgen zu LM Studio wechseln
    • Du kannst Modelle von verschiedenen Anbietern (Meta, Alibaba, Mistral) im selben Setup betreiben
    • Du bist nicht an ein Ökosystem gebunden – anders als bei OpenAI, Anthropic oder Google

    Der praktische Workflow: Von Hugging Face auf deinen Laptop

    1. Modell wählen: Gehe auf huggingface.co und suche dein Modell
    2. Format prüfen: Für lokale Nutzung → GGUF-Tab suchen. Oft gibt es Community-Quantisierungen
    3. Quantisierung wählen: Q4_K_M für Standard, Q5_K_M wenn RAM da ist
    4. Tool installieren: Ollama (ollama pull model), LM Studio (Drag & Drop), oder llama.cpp (CLI)
    5. Loslegen: Das Modell läuft. Keine API-Keys, keine Cloud, keine laufenden Kosten

    Was jetzt zu tun ist

    1. Verstehe den Unterschied: GGUF = lokal nutzen, Safetensors = trainieren/teilen, GGML = vergessen
    2. Teste mit GGUF: Lade ein Q4_K_M-Modell in Ollama oder LM Studio – dauert 5 Minuten
    3. Plane dein Setup: Für sensible Daten ist lokal+GGUF der DSGVO-konforme Weg
    4. Bleib formatflexibel: Open Source heißt, du kannst jederzeit konvertieren und wechseln

    Fazit

    Dateiformate sind nicht sexy. Aber sie entscheiden darüber, ob dein lokales AI-Setup funktioniert oder nicht. GGUF hat sich als Standard durchgesetzt, Safetensors als sicheres Austauschformat. GGML ist Geschichte.

    Das Beste daran: Alles ist Open Source. Du bist nicht abhängig von einem Anbieter, einem Tool oder einem Format. Du wählst das, was zu deinem Use Case passt – und kannst jederzeit wechseln.

    → Wie Qwen3.5 auf deinem Laptop läuft → Mehr über unsere AI-Services

    TeilenLinkedInWhatsAppE-Mail

    Related Articles

    Projekt KNUT: 52 GB VRAM, null Cloud – lokale AI-Infrastruktur im Deep Dive
    April 10, 20264 min

    Projekt KNUT: 52 GB VRAM, null Cloud – lokale AI-Infrastruktur im Deep Dive

    Ein Mac Mini M4, zwei NVIDIA-GPUs, 52 GB VRAM – Projekt KNUT vereint heterogene Hardware zu einer lokalen AI-Infrastrukt…

    Read more
    122 Milliarden Parameter auf deinem Laptop – was Qwen3.5 für dein Business bedeutet
    February 28, 20263 min

    122 Milliarden Parameter auf deinem Laptop – was Qwen3.5 für dein Business bedeutet

    Alibabas Qwen3.5 schlägt GPT-5-mini in fast allen Benchmarks – und läuft lokal auf einem Laptop. Was das für Unternehmen…

    Read more
    Gemma 4 12B Coder läuft lokal auf einem Entwickler-Laptop – Code-Symbole strömen aus einem 12B-Chip
    June 15, 20264 min

    Gemma 4 12B Coder: Lokale Code-Generierung wird zum Default

    Google bringt mit dem Gemma 4 12B Coder die spezialisierte Coding-Variante des Gemma-4-Stacks. 12B Parameter im GGUF-For…

    Read more
    Hunter Alpha enttarnt: Nicht DeepSeek V4, sondern Xiaomis MiMo-V2-Pro
    March 13, 20264 min

    Hunter Alpha enttarnt: Nicht DeepSeek V4, sondern Xiaomis MiMo-V2-Pro

    Hunter Alpha war nicht DeepSeek V4 – sondern Xiaomis MiMo-V2-Pro. Wir korrigieren unsere Analyse, ordnen ein was passier…

    Read more
    Open-Source-LLMs im Vergleich 2026 – 25+ Modelle, die du kennen solltestDeep Dive
    March 7, 202610 min

    Open-Source-LLMs im Vergleich 2026 – 25+ Modelle, die du kennen solltest

    Von Llama über Qwen bis Gemma 4: Alle wichtigen Open-Source-LLMs im Überblick – mit GitHub-Stars, Parametern, Lizenzen u…

    Read more
    Editorial Illustration zu MiniMax M3 – Open-Source-Frontier-Modell mit MSA-Architektur
    June 14, 20264 min

    MiniMax M3: Wie ein Shanghaier Lab die Open-Source-Spitze neu definiert

    MiniMax M3 ist am 1. Juni 2026 erschienen: 1M-Kontext, native Multimodalität, 59% auf SWE-Bench Pro – als Open-Weight. W…

    Read more
    Odysseus von PewDiePie – selbst hostbarer KI-Workspace mit Chat, Agenten und Dokumenten als Alternative zu ChatGPT und Claude
    June 13, 20262 min

    Odysseus von PewDiePie: Warum die eigentliche Frage nicht KI-Souveränität, sondern der KI-Arbeitsplatz ist

    PewDiePies Open-Source-Projekt Odysseus hat in 48 Stunden über 30.000 GitHub Stars gesammelt. Spannender als die Reichwe…

    Read more
    Stilisierte Mistral-Flamme als Mixture-of-Experts-Netzwerk auf dunklem Hintergrund
    June 8, 20265 min

    Mistral 3, Large 3 & Vibe: Warum das letzte Update Europas AI-Hoffnung zurück ins Spiel bringt

    Mistral hat in einem halben Jahr alles auf links gedreht: Mistral 3 mit Large 3 (675B MoE) als Open Weights, Medium 3.5 …

    Read more
    Visualisierung eines großen blassen Neural-Net-Spheres und eines kleineren, hellen Sphere mit Cyan/Gelb – die schrumpfende Frontier offener Modelle
    June 8, 20265 min

    Nex-N2-Pro: Wie die Frontier der offenen Modelle in sechs Wochen um 75 % geschrumpft ist

    Vor sechs Wochen war DeepSeek-V4-Pro mit 1,6 Billionen Parametern das größte je veröffentlichte Open-Weight-Modell. Heut…

    Read more