Vector-Embedding-Wolke versus strukturierter Knowledge Graph nebeneinander

    GraphRAG vs. Vector RAG – wann reicht Ähnlichkeit nicht mehr?

    29. Mai 20264 min Lesezeit
    Till Freitag

    TL;DR: „Vector RAG findet ähnliche Textstellen. GraphRAG findet Antworten, die mehrere Hops über Entitäten und Beziehungen brauchen. Sobald eure Fragen das Wort „und" enthalten – z.B. „welche Kunden von X haben Y und Z" – ist Vector am Ende."

    — Till Freitag

    Worum es geht

    Vector RAG ist 2024 zum De-facto-Standard für „chatte mit deinen Dokumenten" geworden. 2025 hat Microsoft Research GraphRAG veröffentlicht und damit ein altes Problem neu adressiert: Was tun, wenn die Antwort nicht in einem Textabschnitt steht, sondern aus mehreren Stellen zusammengesetzt werden muss?

    Dieser Artikel zeigt, wann Vector RAG funktioniert, wann es scheitert, und was GraphRAG anders macht.

    Wo Vector RAG hervorragend funktioniert

    Vector RAG hat eine sehr klare Stärke: semantische Ähnlichkeit. Du fragst „Wie funktioniert unser Refund-Prozess?", das System findet die drei Absätze, in denen das beschrieben steht, und das LLM formuliert daraus eine saubere Antwort.

    Das Setup ist einfach:

    Dokument → Chunking → Embedding → Vector Store
                                           ↓
    Frage → Embedding → Top-k Nearest Neighbors → LLM-Antwort

    Solange die Antwort an einer Stelle steht und der Suchbegriff semantisch in der Nähe liegt, ist Vector RAG schnell, billig und gut genug.

    Wo Vector RAG zusammenbricht

    Sobald die Frage mehrere Entitäten in Beziehung setzt, wird es eng. Drei klassische Fail-Modi:

    1. Multi-Hop-Fragen

    „Welche Kunden von Account-Manager Anna haben in den letzten 12 Monaten Tickets zu Feature X geöffnet?"

    Das ist ein Join über Anna → Kunden → Tickets → Feature. In den Quelldokumenten steht das nirgends als zusammenhängender Text. Vector RAG findet höchstens drei lose verwandte Chunks, das LLM halluziniert den Rest.

    2. Globale Zusammenfassungen

    „Was sind die drei häufigsten Beschwerdethemen über alle 4.000 Support-Tickets?"

    Vector RAG holt 10 ähnliche Tickets. Es weiß nichts über die anderen 3.990. Die Antwort ist statistisch wertlos.

    3. Reasoning über Quellen hinweg

    „Wie hat sich die Strategie von OpenAI zwischen 2023 und 2026 verändert?"

    Erfordert Aggregation über viele Dokumente plus eine zeitliche Achse. Vector RAG hat kein Konzept von „Zeit" oder „Subjekt-Entwicklung".

    Was GraphRAG anders macht

    GraphRAG kippt eine zusätzliche Schicht zwischen Quellen und Retrieval: einen automatisch aus den Dokumenten extrahierten Knowledge Graph.

    Dokumente
       ↓
    Entity & Relationship Extraction (LLM)
       ↓
    Knowledge Graph (Knoten + Kanten + Communities)
       ↓
    Community Summaries (vorab generiert)
       ↓
    Hybrid Retrieval:
       - Lokale Frage  → Subgraph-Traversal + Vector
       - Globale Frage → Community Summaries
       ↓
    LLM-Antwort mit Quellen

    Zwei Mechaniken sind entscheidend:

    1. Community Detection: Der Graph wird in Cluster verwandter Entitäten zerlegt (Leiden-Algorithmus). Für jeden Cluster wird vorab eine Summary generiert. Globale Fragen treffen direkt diese Summaries statt 4.000 Einzeldokumente.
    2. Subgraph-Traversal: Lokale Fragen finden zuerst die relevante Entität, traversieren dann deren Nachbarschaft und holen erst dann die Original-Chunks. Das ist deterministisch statt probabilistisch.

    Direkter Vergleich

    Vector RAG GraphRAG
    Setup-Aufwand niedrig hoch (Extraction-Pipeline)
    Kosten Indexierung günstig teuer (LLM-Calls pro Dokument)
    Kosten Retrieval sehr günstig mittel
    Single-Hop-Antworten exzellent exzellent
    Multi-Hop-Antworten schlecht exzellent
    Globale Zusammenfassungen nicht möglich nativ
    Erklärbarkeit „diese 5 Chunks" „dieser Pfad durch den Graph"
    Aktualisierungen trivial (Re-embed) komplex (Graph-Updates)

    Mini-Code: GraphRAG mit LlamaIndex

    from llama_index.core import KnowledgeGraphIndex, SimpleDirectoryReader
    from llama_index.graph_stores.neo4j import Neo4jGraphStore
    from llama_index.llms.openai import OpenAI
    
    # 1. Quellen laden
    docs = SimpleDirectoryReader("./docs").load_data()
    
    # 2. Graph extrahieren + speichern
    graph_store = Neo4jGraphStore(
        username="neo4j", password="...", url="bolt://localhost:7687",
    )
    index = KnowledgeGraphIndex.from_documents(
        docs,
        graph_store=graph_store,
        llm=OpenAI(model="gpt-4.1"),
        max_triplets_per_chunk=15,
        include_embeddings=True,
    )
    
    # 3. Hybrid abfragen
    query_engine = index.as_query_engine(
        include_text=True,            # zusätzlich Original-Chunks
        response_mode="tree_summarize",
    )
    print(query_engine.query(
        "Welche Kunden mit Vertragswert > 100k haben offene Tickets zu Feature X?"
    ))

    Das Skript läuft auf 100 Dokumenten in unter einer Stunde und kostet je nach Modell zwischen 5 und 30 USD an Extraction.

    Wann GraphRAG, wann nicht?

    GraphRAG lohnt sich, wenn:

    • Eure Nutzer:innen stellen regelmäßig Multi-Hop-Fragen mit „und", „über", „pro"
    • Ihr braucht globale Sicht auf einen Korpus (Themen, Trends, Cluster)
    • Ihr habt Compliance-Anforderungen an die Quelle einer Antwort
    • Eure Quelldokumente referenzieren sich gegenseitig (Verträge, Tickets, E-Mails)

    Bleibt bei Vector RAG, wenn:

    • 90 % eurer Fragen sind „wo steht das?"-Fragen
    • Eure Daten sind ein flacher Stapel ähnlicher Artikel (FAQs, Blogposts, Handbücher)
    • Ihr habt < 200 Dokumente — der Graph-Overhead lohnt nicht
    • Niemand im Team will eine Extraction-Pipeline pflegen

    Hybrid ist die ehrliche Antwort

    In der Praxis kombinieren ernstzunehmende Setups beides:

    • Vector für Verbatim-Lookup und Long-Tail-Fragen
    • Graph für strukturierte Multi-Hop-Antworten und globale Sicht

    Genau diese Hybrid-Architektur sehen wir in jedem zweiten Enterprise-AI-Projekt, das wir derzeit bauen — und sie ist der Hauptgrund, warum wir Knowledge Graphs als Service anbieten.

    Fazit

    Vector RAG ist nicht „falsch", es ist nur begrenzt. Wer ein AI-System baut, das mehr als nur Text wiederfindet, kommt um GraphRAG nicht herum. Die gute Nachricht: Dank moderner LLMs ist die Extraction-Pipeline heute machbar — vor zwei Jahren war das noch ein Forschungsthema.

    Wer beim Bau einer RAG-Lösung das erste Mal an die Multi-Hop-Wand läuft, sollte nicht den Vector-Store optimieren. Das Problem ist das Datenmodell, nicht die Embeddings.


    Verwandte Artikel:

    TeilenLinkedInWhatsAppE-Mail

    Verwandte Artikel

    Dokumentenstapel löst sich in Datenpunkte auf und formt einen strukturierten Knowledge Graph
    30. Mai 20264 min

    Entity Extraction mit LLMs – vom Dokument zum Knowledge Graph

    Wie kommt ein Knowledge Graph eigentlich zu seinen Entitäten? Mit LLMs in vier Schritten: Chunking, Extraction, Dedupliz…

    Weiterlesen
    Abstrakte Visualisierung eines Knowledge Graphs mit Knoten und Verbindungen
    27. Mai 20264 min

    Was ist ein Knowledge Graph – und warum reden gerade alle darüber?

    Knowledge Graphs sind plötzlich überall – von Google über Palantir bis hin zu jedem zweiten AI-Agenten-Startup. Was stec…

    Weiterlesen
    Architektur-Diagramm: zentraler Orchestrator-Agent verbindet drei spezialisierte Sub-Agents (Sales, CRM, Ops) über TOOLS.md-Schnittstellen mit operativen Enterprise-Systemen
    30. April 20266 min

    Enterprise-Grade Agentic Setup: Warum ein API-Key keine KI-Strategie ist

    Ein API-Key in deiner Website ist Spielzeug. Ein agentisches Setup mit spezialisierten Sub-Agents, TOOLS.md, sauberen Sy…

    Weiterlesen
    Vergleich dreier Agent-Runtime-Architekturen für Production Deployments
    9. April 20266 min

    Claude Managed Agents vs. LangGraph vs. CrewAI: Agent-Runtimes für Production im Vergleich

    Drei Wege, Production Agents zu deployen: Anthropics gehostete Runtime, LangGraphs Graph-Orchestrierung oder CrewAIs Rol…

    Weiterlesen
    Claude Managed Agents Architektur – Gehirn verbunden mit mehreren Händen für Tools und Sandboxes
    8. April 20265 min

    Claude Managed Agents: Anthropics Griff nach der Agent-Runtime

    Anthropic launcht Managed Agents in der Public Beta – eine gehostete Runtime, die das 'Gehirn' von den 'Händen' entkoppe…

    Weiterlesen
    Agent Skills werden Industrie-Standard: Was Teams jetzt wissen müssen
    19. September 20254 min

    Agent Skills werden Industrie-Standard: Was Teams jetzt wissen müssen

    Agent Skills sind wiederverwendbare Fähigkeiten für KI-Agenten – und werden zum neuen Standard. Was sie von MCP untersch…

    Weiterlesen
    Enterprise-KI-Agenten verbinden sich sicher über den Gemini Enterprise Agent Marketplace
    28. Mai 20263 min

    Googles Agent Marketplace ist live – und monday.com ist von Tag eins dabei

    Google öffnet Gemini Enterprise für Partner-AI-Agenten – und monday.com ist von Anfang an drin. Was das für Enterprise-W…

    Weiterlesen
    Visualisierung vernetzter Notizen mit Backlinks – ein persönlicher Knowledge Graph
    28. Mai 20264 min

    Obsidian als persönlicher Knowledge Graph – warum Notizen mit Backlinks alles verändern

    Obsidian ist mehr als eine Notiz-App – es ist ein persönlicher Knowledge Graph. Warum Markdown, Backlinks und lokale Dat…

    Weiterlesen
    MCP als zentraler Hub, der KI-Agenten mit CRM, ERP, Datenbanken und SaaS-Tools verbindet
    13. Mai 20265 min

    No MCP, no Party: Warum kein Unternehmen mehr an MCP vorbeikommt

    MCP ist nicht mehr nur ein Protokoll – es ist ein neuer Distributionskanal. Wer als SaaS oder Unternehmen jetzt keinen M…

    Weiterlesen