
Die Geschichte der KI, Teil 2: Die Sprachrevolution (2018–2020)
TL;DR: „BERT und GPT zeigten zwei Wege – aber beide bewiesen: Maschinen können Sprache verstehen und generieren."
— Till FreitagDie Transformer-Architektur wird entfesselt
Nachdem 2017 die Transformer-Architektur vorgestellt wurde, begann ein Wettrennen. Zwei Ansätze kristallisierten sich heraus – und beide veränderten die AI-Welt grundlegend.
2018: BERT – Google versteht Kontext
Im Oktober 2018 veröffentlichte Google BERT (Bidirectional Encoder Representations from Transformers). Der Clou: BERT liest Text in beide Richtungen gleichzeitig und versteht dadurch Kontext besser als alles zuvor.
Ein Beispiel
Der Satz: „Die Bank am Fluss war nass."
- Vorher: Modelle wussten nicht, ob „Bank" das Möbelstück oder das Finanzinstitut meint
- BERT: Versteht durch den Kontext „Fluss" und „nass", dass es um eine Sitzbank geht
Google integrierte BERT direkt in die Suche – der größte Algorithmus-Sprung seit Jahren. Plötzlich verstand Google, was du meinst, nicht nur was du tippst.
2019: GPT-2 – „Too dangerous to release"
OpenAI veröffentlichte GPT-2 im Februar 2019 – aber nur teilweise. Das vollständige Modell hielten sie zunächst zurück, mit der Begründung: zu gefährlich für die Öffentlichkeit. Die Angst: Massenhaft generierter Fake-Content.
GPT-2 konnte erstaunlich kohärente Texte schreiben. Ganze Nachrichtenartikel, Geschichten, sogar simple Programmieraufgaben. 1,5 Milliarden Parameter – damals unvorstellbar groß.
Die Debatte beginnt
Die GPT-2-Kontroverse markierte den Beginn einer Diskussion, die bis heute anhält:
- Sicherheit vs. Offenheit – Wer entscheidet, was „zu gefährlich" ist?
- Dual Use – Jede AI-Fähigkeit kann nützlich oder schädlich sein
- Verantwortung der Entwickler – OpenAI wurde zum Zentrum dieser Debatte
2020: GPT-3 – der Paradigmenwechsel
Im Juni 2020 erschien GPT-3 mit 175 Milliarden Parametern – über 100x größer als GPT-2. Und plötzlich wurde klar: Skalierung allein erzeugt emergente Fähigkeiten.
GPT-3 konnte Dinge, die niemand explizit trainiert hatte:
- Programmiercode schreiben
- Zwischen Sprachen übersetzen
- Mathematische Probleme lösen
- Kreative Texte in verschiedenen Stilen verfassen
- Wenige Beispiele reichten zum „Lernen" (Few-Shot Learning)
Die Skalierungshypothese
| Modell | Parameter | Jahr | Fähigkeiten |
|---|---|---|---|
| GPT-1 | 117 Mio. | 2018 | Einfache Textvervollständigung |
| GPT-2 | 1,5 Mrd. | 2019 | Kohärente Absätze |
| GPT-3 | 175 Mrd. | 2020 | Code, Übersetzung, Reasoning |
Die Botschaft war klar: Mehr Parameter = mehr Fähigkeiten. Die sogenannte Skalierungshypothese wurde zur treibenden Kraft der gesamten Branche.
GitHub Copilot – AI wird zum Werkzeug
Ende 2020 begann die Entwicklung von GitHub Copilot, basierend auf GPT-3 (später Codex). Zum ersten Mal wurde ein großes Sprachmodell direkt in ein Produkt integriert, das Millionen Menschen täglich nutzen.
Copilot zeigte: AI ist keine Zukunftsmusik mehr. Sie sitzt in deinem Editor und schreibt Code mit dir.
Was wir aus dieser Ära lernen
Die Jahre 2018–2020 brachten drei fundamentale Erkenntnisse:
- Sprache ist der Schlüssel – Wer Sprache beherrscht, kann fast alles beherrschen
- Skalierung funktioniert – Größere Modelle können qualitativ neue Dinge
- AI wird Produkt – Von der Forschung in den Arbeitsalltag
Doch das wirklich Große stand noch bevor.
Weiter geht's mit Teil 3: Der ChatGPT-Moment – AI erreicht die Welt (2022–2023)




