Die Geschichte der KI, Teil 2: Die Sprachrevolution (2018–2020)

10. August 20252 min read

TL;DR: „BERT und GPT zeigten zwei Wege – aber beide bewiesen: Maschinen können Sprache verstehen und generieren."

— Till Freitag

Die Transformer-Architektur wird entfesselt

Nachdem 2017 die Transformer-Architektur vorgestellt wurde, begann ein Wettrennen. Zwei Ansätze kristallisierten sich heraus – und beide veränderten die AI-Welt grundlegend.

2018: BERT – Google versteht Kontext

Im Oktober 2018 veröffentlichte Google BERT (Bidirectional Encoder Representations from Transformers). Der Clou: BERT liest Text in beide Richtungen gleichzeitig und versteht dadurch Kontext besser als alles zuvor.

Ein Beispiel

Der Satz: „Die Bank am Fluss war nass."

Vorher: Modelle wussten nicht, ob „Bank" das Möbelstück oder das Finanzinstitut meint
BERT: Versteht durch den Kontext „Fluss" und „nass", dass es um eine Sitzbank geht

Google integrierte BERT direkt in die Suche – der größte Algorithmus-Sprung seit Jahren. Plötzlich verstand Google, was du meinst, nicht nur was du tippst.

2019: GPT-2 – „Too dangerous to release"

OpenAI veröffentlichte GPT-2 im Februar 2019 – aber nur teilweise. Das vollständige Modell hielten sie zunächst zurück, mit der Begründung: zu gefährlich für die Öffentlichkeit. Die Angst: Massenhaft generierter Fake-Content.

GPT-2 konnte erstaunlich kohärente Texte schreiben. Ganze Nachrichtenartikel, Geschichten, sogar simple Programmieraufgaben. 1,5 Milliarden Parameter – damals unvorstellbar groß.

Die Debatte beginnt

Die GPT-2-Kontroverse markierte den Beginn einer Diskussion, die bis heute anhält:

Sicherheit vs. Offenheit – Wer entscheidet, was „zu gefährlich" ist?
Dual Use – Jede AI-Fähigkeit kann nützlich oder schädlich sein
Verantwortung der Entwickler – OpenAI wurde zum Zentrum dieser Debatte

2020: GPT-3 – der Paradigmenwechsel

Im Juni 2020 erschien GPT-3 mit 175 Milliarden Parametern – über 100x größer als GPT-2. Und plötzlich wurde klar: Skalierung allein erzeugt emergente Fähigkeiten.

GPT-3 konnte Dinge, die niemand explizit trainiert hatte:

Programmiercode schreiben
Zwischen Sprachen übersetzen
Mathematische Probleme lösen
Kreative Texte in verschiedenen Stilen verfassen
Wenige Beispiele reichten zum „Lernen" (Few-Shot Learning)

Die Skalierungshypothese

Modell	Parameter	Jahr	Fähigkeiten
GPT-1	117 Mio.	2018	Einfache Textvervollständigung
GPT-2	1,5 Mrd.	2019	Kohärente Absätze
GPT-3	175 Mrd.	2020	Code, Übersetzung, Reasoning

Die Botschaft war klar: Mehr Parameter = mehr Fähigkeiten. Die sogenannte Skalierungshypothese wurde zur treibenden Kraft der gesamten Branche.

GitHub Copilot – AI wird zum Werkzeug

Ende 2020 begann die Entwicklung von GitHub Copilot, basierend auf GPT-3 (später Codex). Zum ersten Mal wurde ein großes Sprachmodell direkt in ein Produkt integriert, das Millionen Menschen täglich nutzen.

Copilot zeigte: AI ist keine Zukunftsmusik mehr. Sie sitzt in deinem Editor und schreibt Code mit dir.

Was wir aus dieser Ära lernen

Die Jahre 2018–2020 brachten drei fundamentale Erkenntnisse:

Sprache ist der Schlüssel – Wer Sprache beherrscht, kann fast alles beherrschen
Skalierung funktioniert – Größere Modelle können qualitativ neue Dinge
AI wird Produkt – Von der Forschung in den Arbeitsalltag

Doch das wirklich Große stand noch bevor.

Weiter geht's mit Teil 3: Der ChatGPT-Moment – AI erreicht die Welt (2022–2023)

TeilenLinkedIn WhatsApp E-Mail

February 17, 20263 min

Die Geschichte der KI, Teil 5: Ausblick 2026 – Was kommt als Nächstes?

AGI, autonome Agenten, AI-native Unternehmen: Ein pragmatischer Ausblick auf das AI-Jahr 2026.…

December 15, 20253 min

Die Geschichte der KI, Teil 4: AI wird Infrastruktur (2024–2025)

Von Chatbots zu Agenten, von Text zu Multimodal: Wie AI 2024 und 2025 zur Infrastruktur der Arbeitswelt wurde.…

October 5, 20253 min

Die Geschichte der KI, Teil 3: Der ChatGPT-Moment (2022–2023)

100 Millionen Nutzer in zwei Monaten: Wie ChatGPT, DALL-E und GPT-4 die Welt auf den Kopf stellten.…

June 15, 20252 min

Die Geschichte der KI, Teil 1: Als Maschinen sehen und spielen lernten (2012–2017)

Von AlexNet über AlphaGo bis zum Transformer-Paper: Wie die Grundlagen gelegt wurden, die heute alles verändern.…

July 9, 20255 min

BullshitBench – Welche KI erkennt Nonsense?

BullshitBench testet, ob KI-Modelle plausibel klingenden Nonsense erkennen – oder ihn einfach schlucken. Die Ergebnisse …

May 19, 20263 min

Warum 🦞 das Erkennungszeichen der Agentic-AI-Bewegung wurde

Wie ein Krustentier zum Stammes-Emoji der Agentic-AI-Szene wurde – von Anthropic-Memes bis zu Bio-Twitter-Profilen volle…

May 19, 20264 min

Lovable Skills: Wiederholungen werden zu wiederverwendbaren Playbooks

Lovable hat Skills ausgerollt – das Anthropic-Format für wiederverwendbare Agent-Anweisungen. Was Skills sind, wie sie s…

Abstrakte Illustration einer Hirschsilhouette, verbunden mit isolierten Sandbox-Containern über leuchtende Flow-Linien

May 18, 20264 min

DeerFlow 2.0: ByteDances 68k-Sterne Super-Agent-Harness, der fertige Artefakte liefert

ByteDances Open-Source-Super-Agent-Harness bringt Skills für Research, Reports, Slides, Web-Seiten, Bild- und Video-Gen …

Schwebende Fragezeichen über einem MCP-Server mit Auth-Shield und vernetzten Knoten – visuelle FAQ-Metapher

May 13, 20267 min

MCP-FAQ: Die 12 häufigsten Einwände – ehrlich beantwortet

Brauche ich überhaupt MCP, wenn ich schon eine API habe? Was kostet das? Wie sicher ist das wirklich? Wir beantworten di…