Alte Bibliothek mit Fachbüchern, aus denen goldene Datenströme in einen leuchtenden Knowledge Graph fließen

    Fachverlage sitzen auf dem wertvollsten AI-Asset – und verschenken es

    15. Juni 20264 min Lesezeit
    Till Freitag

    TL;DR: „Fachverlage haben das, was LLMs am dringendsten brauchen: verifiziertes, kuratiertes Domänenwissen. Statt PDFs hinter Paywalls zu verkaufen, sollten sie ihren Content per MCP-Server als AI-Feed bereitstellen – pro Query abgerechnet, in den Workflow integriert, ohne den eigenen Brand zu verlieren."

    — Till Freitag

    Die These

    LLMs sind brillant im Allgemeinen und mittelmäßig im Speziellen. Sie wissen, wer Goethe war, aber nicht, welche DIN-Norm letzten Monat geändert wurde, welche Steuerrechtsprechung gestern erging, welche Pharmakokinetik bei Patienten mit Niereninsuffizienz tatsächlich gilt.

    Diesen Gap füllen seit Jahrzehnten Fachverlage: Beck, Haufe, Wolters Kluwer, Springer, Thieme, Elsevier, VDI, DWA. Sie kuratieren, validieren, versionieren – und verkaufen das Ergebnis als PDF, Loseblatt oder Datenbank-Login.

    Genau dieses Asset – verifiziertes, redaktionell gepflegtes Domänenwissen – ist im AI-Zeitalter wertvoller als je zuvor. Und die meisten Verlage verschenken es gerade, indem sie an ihrem alten Distributionsmodell festhalten.

    Warum LLMs Fachverlage brauchen

    Ein Foundation-Model löst drei Probleme nicht, egal wie groß es wird:

    1. Aktualität. Trainingsdaten sind nach Cut-off-Datum eingefroren. Eine BGH-Entscheidung von gestern existiert für das Modell nicht.
    2. Verifizierbarkeit. Ein LLM kann nicht erklären, woher es etwas weiß. Im regulierten B2B (Recht, Medizin, Steuern, Engineering) ist das ein Show-Stopper.
    3. Tiefe. Allgemeine Trainingsdaten enthalten Lehrbuchwissen. Sie enthalten nicht den Kommentar zu §613a BGB in der 19. Auflage mit den letzten 47 Urteilen seit Drucklegung.

    Genau hier sitzen Fachverlage auf einem Goldschatz: kuratiertes, versioniertes, zitierbares, ständig aktualisiertes Domänenwissen. Das ist exakt das, was ein produktiver AI-Workflow im B2B braucht – und was kein noch so großes Foundation-Model selbst halten kann.

    Context Engineering – die Disziplin, die das löst

    Context Engineering ist die Disziplin, dem Modell zur richtigen Zeit das richtige Wissen in den Kontext zu legen. Nicht alles auf einmal (Token-Budget), nicht zu wenig (Halluzination), sondern genau das, was für die aktuelle Aufgabe relevant ist.

    In der Praxis heißt das:

    User-Anfrage
       ↓ Intent erkennen
    Relevanz-Routing
       ↓ welche Quellen, welche Zeitscheibe, welche Jurisdiktion?
    Retrieval (Vektor / GraphRAG / strukturierte Query)
       ↓ Top-k Snippets mit Zitierungen
    LLM-Call mit kuratiertem Kontext
       ↓
    Antwort mit Quellenangabe

    Das funktioniert nur, wenn die Quelle maschinell zugreifbar ist – strukturiert, granular, mit stabilen IDs und Versionsständen. Genau das ist der Übergabepunkt, an dem Verlage heute scheitern: Ein PDF im Login-Portal ist für einen Agent nicht erreichbar.

    MCP – der Verteilkanal, der fehlt

    Das Model Context Protocol (MCP) ist die Standard-Schnittstelle, über die LLM-Agents externe Datenquellen ansprechen. Statt jeder Verlag baue eine eigene API mit eigenem SDK, gibt es ein einheitliches Protokoll – und der Agent (in Claude, ChatGPT, Cursor, Lovable, in jedem eigenen B2B-Tool) verbindet sich per Klick.

    Für einen Fachverlag bedeutet das konkret:

    • Ein MCP-Server pro Produktlinie (z. B. „Beck Steuerrecht", „Thieme Innere Medizin", „DWA Regelwerke").
    • Authentifizierung via bestehendes Abo – kein neues Abrechnungsmodell nötig, der Lizenz-Login wandert in den OAuth-Flow.
    • Granulare Tools statt Dokument-Dumps: search_judgments(topic, jurisdiction, date_range), get_commentary(paragraph, edition), cite(document_id).
    • Strukturierte Outputs mit stabilen Zitier-IDs, Versionsständen, Confidence-Levels.

    Der Agent in der Anwaltskanzlei zieht sich beim Schreiben des Schriftsatzes selbständig den passenden Kommentar – mit Zitat, das vor Gericht hält. Der Arzt-Workflow im Krankenhaus fragt die aktuelle Leitlinie an, bevor er den Behandlungsplan vorschlägt. Der Ingenieur-Agent prüft die DIN-Konformität in Echtzeit.

    Vom PDF-Verkauf zum AI-Feed

    Das alte Modell ist: Dokument hinter Paywall, Mensch loggt ein, liest.

    Das neue Modell ist: Wissens-Atom hinter MCP-Endpoint, Agent ruft ab, zitiert, verrechnet pro Query.

    Drei Implikationen für das Geschäftsmodell:

    1. Pricing wird usage-based. Statt Jahres-Lizenz pro Sitzplatz: Cent-Bruchteile pro abgerufenem Wissens-Atom. Das skaliert mit dem AI-Workflow des Kunden, nicht mit der Anzahl seiner Mitarbeiter.
    2. Der Brand bleibt zitiert. Jede Antwort, die der Agent gibt, trägt die Quellenangabe. „Quelle: Münchener Kommentar, 9. Aufl., §613a Rn. 47" ist Brand-Building in jedem einzelnen LLM-Output – etwas, das ein generisches Foundation-Model nie liefern kann.
    3. Die Konkurrenz heißt nicht mehr Verlag X, sondern „das Modell weiß es eh". Genau deshalb ist Geschwindigkeit jetzt entscheidend. Wer in 12 Monaten keinen MCP-Endpoint hat, wird in den Workflows der Kunden nicht mehr vorkommen – nicht weil das Wissen schlechter wäre, sondern weil es nicht abrufbar ist.

    Was Verlage jetzt konkret bauen müssen

    Drei Bausteine, in dieser Reihenfolge:

    1. Content-API mit stabilen IDs. Bevor MCP funktioniert, muss der Content adressierbar sein. Jeder Absatz, jeder Paragraph, jede Tabelle braucht eine Permanent-ID, eine Versionsnummer, ein Änderungsdatum. Viele Verlage haben das im Backend längst – es ist nur nie nach außen exponiert worden.

    2. Retrieval-Layer. Vektor-Embeddings über den gesamten Bestand, optional ein Knowledge Graph für strukturierte Beziehungen (Kommentar → Paragraph → Urteil → Folge-Urteil). Das ist der Layer, der „semantische Suche" möglich macht – die Grundlage jedes Agent-Workflows.

    3. MCP-Server. Dünner Wrapper über Auth + Retrieval + Tool-Definitionen. Technisch in Wochen baubar, wenn die ersten zwei Schritte stehen. Das ist der Teil, der nach außen sichtbar wird – und auf den sich die Aufmerksamkeit fokussieren wird.

    Der Business-Hook

    Fachverlage haben in zwei Jahren die Chance, vom „Distributor von Wissensdokumenten" zum „Wissens-Infrastruktur-Anbieter für AI-Workflows" zu werden. Wer das nicht tut, wird disintermediated – nicht weil sein Content schlechter wäre, sondern weil er für die neue Generation von Workflows schlicht nicht existiert.

    Genau dieses Modell – Content-Audit, ID-Strategie, Retrieval-Layer, MCP-Server, Abrechnungs- und Lizenz-Integration – ist das, was wir bei Till Freitag für Verlage und wissensgetriebene B2B-Unternehmen bauen. Wer auf einem kuratierten Wissensbestand sitzt und ihn AI-tauglich machen will, sollte das jetzt tun, nicht in 18 Monaten.

    Das wertvollste Asset eures Hauses liegt aktuell hinter einer Paywall, die kein Agent öffnen kann. Macht die Tür auf – und stellt einen Token-Zähler daneben.

    TeilenLinkedInWhatsAppE-Mail

    Verwandte Artikel

    Odysseus von PewDiePie – selbst hostbarer KI-Workspace mit Chat, Agenten und Dokumenten als Alternative zu ChatGPT und Claude
    13. Juni 20262 min

    Odysseus von PewDiePie: Warum die eigentliche Frage nicht KI-Souveränität, sondern der KI-Arbeitsplatz ist

    PewDiePies Open-Source-Projekt Odysseus hat in 48 Stunden über 30.000 GitHub Stars gesammelt. Spannender als die Reichwe…

    Weiterlesen
    Trillions of Agents: Was Aaron Levies These für den deutschen Mittelstand bedeutet
    10. April 20265 min

    Trillions of Agents: Was Aaron Levies These für den deutschen Mittelstand bedeutet

    Aaron Levie prophezeit eine Welt mit Billionen von Agenten. Wir ordnen ein, was das für KMUs bedeutet – und warum API-Fi…

    Weiterlesen
    KI-Agent registriert sich an einem monday.com Kiosk mit HATCHA Reverse-CAPTCHA
    6. Juni 20263 min

    monday.com öffnet die Türen für KI-Agenten: Was hinter agents-signup steckt

    monday.com hat einen eigenen Signup-Flow für KI-Agenten gebaut – mit HATCHA, MCP und Instant API Key. Warum das mehr ist…

    Weiterlesen
    Drei abstrakte Graph-Cluster nebeneinander symbolisieren drei verschiedene Graph-Datenbanken
    31. Mai 20264 min

    Neo4j vs. Kuzu vs. Memgraph – welche Graph-DB für welches AI-Setup?

    Drei Graph-Datenbanken, drei sehr unterschiedliche Profile. Neo4j ist der Industriestandard, Kuzu der schnelle Embedded-…

    Weiterlesen
    Dokumentenstapel löst sich in Datenpunkte auf und formt einen strukturierten Knowledge Graph
    30. Mai 20264 min

    Entity Extraction mit LLMs – vom Dokument zum Knowledge Graph

    Wie kommt ein Knowledge Graph eigentlich zu seinen Entitäten? Mit LLMs in vier Schritten: Chunking, Extraction, Dedupliz…

    Weiterlesen
    Vector-Embedding-Wolke versus strukturierter Knowledge Graph nebeneinander
    29. Mai 20264 min

    GraphRAG vs. Vector RAG – wann reicht Ähnlichkeit nicht mehr?

    Vector RAG ist Standard – aber sobald Fragen mehrstufig werden, bricht es zusammen. GraphRAG kombiniert Knowledge Graphs…

    Weiterlesen
    Visualisierung vernetzter Notizen mit Backlinks – ein persönlicher Knowledge Graph
    28. Mai 20264 min

    Obsidian als persönlicher Knowledge Graph – warum Notizen mit Backlinks alles verändern

    Obsidian ist mehr als eine Notiz-App – es ist ein persönlicher Knowledge Graph. Warum Markdown, Backlinks und lokale Dat…

    Weiterlesen
    Abstrakte Visualisierung eines Knowledge Graphs mit Knoten und Verbindungen
    27. Mai 20264 min

    Was ist ein Knowledge Graph – und warum reden gerade alle darüber?

    Knowledge Graphs sind plötzlich überall – von Google über Palantir bis hin zu jedem zweiten AI-Agenten-Startup. Was stec…

    Weiterlesen
    Schwebende Fragezeichen über einem MCP-Server mit Auth-Shield und vernetzten Knoten – visuelle FAQ-Metapher
    13. Mai 20267 min

    MCP-FAQ: Die 12 häufigsten Einwände – ehrlich beantwortet

    Brauche ich überhaupt MCP, wenn ich schon eine API habe? Was kostet das? Wie sicher ist das wirklich? Wir beantworten di…

    Weiterlesen