Die Geschichte der KI, Teil 2: Die Sprachrevolution (2018–2020)

Till Freitag10. August 20252 min Lesezeit

TL;DR: „BERT und GPT zeigten zwei Wege – aber beide bewiesen: Maschinen können Sprache verstehen und generieren."

— Till Freitag

Die Transformer-Architektur wird entfesselt

Nachdem 2017 die Transformer-Architektur vorgestellt wurde, begann ein Wettrennen. Zwei Ansätze kristallisierten sich heraus – und beide veränderten die AI-Welt grundlegend.

2018: BERT – Google versteht Kontext

Im Oktober 2018 veröffentlichte Google BERT (Bidirectional Encoder Representations from Transformers). Der Clou: BERT liest Text in beide Richtungen gleichzeitig und versteht dadurch Kontext besser als alles zuvor.

Ein Beispiel

Der Satz: „Die Bank am Fluss war nass."

Vorher: Modelle wussten nicht, ob „Bank" das Möbelstück oder das Finanzinstitut meint
BERT: Versteht durch den Kontext „Fluss" und „nass", dass es um eine Sitzbank geht

Google integrierte BERT direkt in die Suche – der größte Algorithmus-Sprung seit Jahren. Plötzlich verstand Google, was du meinst, nicht nur was du tippst.

2019: GPT-2 – „Too dangerous to release"

OpenAI veröffentlichte GPT-2 im Februar 2019 – aber nur teilweise. Das vollständige Modell hielten sie zunächst zurück, mit der Begründung: zu gefährlich für die Öffentlichkeit. Die Angst: Massenhaft generierter Fake-Content.

GPT-2 konnte erstaunlich kohärente Texte schreiben. Ganze Nachrichtenartikel, Geschichten, sogar simple Programmieraufgaben. 1,5 Milliarden Parameter – damals unvorstellbar groß.

Die Debatte beginnt

Die GPT-2-Kontroverse markierte den Beginn einer Diskussion, die bis heute anhält:

Sicherheit vs. Offenheit – Wer entscheidet, was „zu gefährlich" ist?
Dual Use – Jede AI-Fähigkeit kann nützlich oder schädlich sein
Verantwortung der Entwickler – OpenAI wurde zum Zentrum dieser Debatte

2020: GPT-3 – der Paradigmenwechsel

Im Juni 2020 erschien GPT-3 mit 175 Milliarden Parametern – über 100x größer als GPT-2. Und plötzlich wurde klar: Skalierung allein erzeugt emergente Fähigkeiten.

GPT-3 konnte Dinge, die niemand explizit trainiert hatte:

Programmiercode schreiben
Zwischen Sprachen übersetzen
Mathematische Probleme lösen
Kreative Texte in verschiedenen Stilen verfassen
Wenige Beispiele reichten zum „Lernen" (Few-Shot Learning)

Die Skalierungshypothese

Modell	Parameter	Jahr	Fähigkeiten
GPT-1	117 Mio.	2018	Einfache Textvervollständigung
GPT-2	1,5 Mrd.	2019	Kohärente Absätze
GPT-3	175 Mrd.	2020	Code, Übersetzung, Reasoning

Die Botschaft war klar: Mehr Parameter = mehr Fähigkeiten. Die sogenannte Skalierungshypothese wurde zur treibenden Kraft der gesamten Branche.

GitHub Copilot – AI wird zum Werkzeug

Ende 2020 begann die Entwicklung von GitHub Copilot, basierend auf GPT-3 (später Codex). Zum ersten Mal wurde ein großes Sprachmodell direkt in ein Produkt integriert, das Millionen Menschen täglich nutzen.

Copilot zeigte: AI ist keine Zukunftsmusik mehr. Sie sitzt in deinem Editor und schreibt Code mit dir.

Was wir aus dieser Ära lernen

Die Jahre 2018–2020 brachten drei fundamentale Erkenntnisse:

Sprache ist der Schlüssel – Wer Sprache beherrscht, kann fast alles beherrschen
Skalierung funktioniert – Größere Modelle können qualitativ neue Dinge
AI wird Produkt – Von der Forschung in den Arbeitsalltag

Doch das wirklich Große stand noch bevor.

Weiter geht's mit Teil 3: Der ChatGPT-Moment – AI erreicht die Welt (2022–2023)

TeilenLinkedIn WhatsApp E-Mail

Verwandte Artikel

17. Februar 20263 min

Die Geschichte der KI, Teil 5: Ausblick 2026 – Was kommt als Nächstes?

AGI, autonome Agenten, AI-native Unternehmen: Ein pragmatischer Ausblick auf das AI-Jahr 2026.…

15. Dezember 20253 min

Die Geschichte der KI, Teil 4: AI wird Infrastruktur (2024–2025)

Von Chatbots zu Agenten, von Text zu Multimodal: Wie AI 2024 und 2025 zur Infrastruktur der Arbeitswelt wurde.…

5. Oktober 20253 min

Die Geschichte der KI, Teil 3: Der ChatGPT-Moment (2022–2023)

100 Millionen Nutzer in zwei Monaten: Wie ChatGPT, DALL-E und GPT-4 die Welt auf den Kopf stellten.…

15. Juni 20252 min

Die Geschichte der KI, Teil 1: Als Maschinen sehen und spielen lernten (2012–2017)

Von AlexNet über AlphaGo bis zum Transformer-Paper: Wie die Grundlagen gelegt wurden, die heute alles verändern.…

9. Juli 20255 min

BullshitBench – Welche KI erkennt Nonsense?

BullshitBench testet, ob KI-Modelle plausibel klingenden Nonsense erkennen – oder ihn einfach schlucken. Die Ergebnisse …

Claude Managed Agents Architektur – Gehirn verbunden mit mehreren Händen für Tools und Sandboxes

8. April 20265 min

Claude Managed Agents: Anthropics Griff nach der Agent-Runtime

Anthropic launcht Managed Agents in der Public Beta – eine gehostete Runtime, die das 'Gehirn' von den 'Händen' entkoppe…

Kambrische Explosion der Vibe-Coding-Tools – viele Tools, sechs Kategorien

8. April 20266 min

Die Vibe-Coding-Explosion: 138 Tools – und warum nur 7 Kategorien zählen

138+ Vibe-Coding-Tools am Markt – und jede Woche kommen neue dazu. Wir sortieren das Chaos in 7 Kategorien und analysier…

Person steht vor einem Schreibtisch, umgeben von schwebendem Prozesswissen, das zu einem KI-Gehirn fließt

7. April 20267 min

KI ist nicht der Engpass. Kontext ist es.

Die Modelle sind gut genug. Das Problem ist nicht die KI – sondern das Wissen, das in den Köpfen der Prozessverantwortli…

7. April 20264 min

monday Vibe Q1/2026: Ein Jahres-Backlog in einem Quartal – Das größte Update seit Launch

monday.com hat im Q1/2026 ein komplettes Jahres-Backlog für Vibe Apps ausgeliefert. 19+ Features, 26 A/B-Tests, Mobile S…