Kapitel 2: Große Sprachmodelle
Große Sprachmodelle (Large Language Models, LLM) haben das Ziel, menschliche Sprache zu verarbeiten und zu generieren. ChatGPT oder Claude sind beispielsweise Chatbots, die mit Großen Sprachmodellen arbeiten.
Große Sprachmodelle sind somit ein Teilbereich Künstlicher Intelligenz. Sie haben mithilfe Maschinellen Lernens ein Modell menschlicher Sprache entwickelt, ohne jemals eine Anleitung dafür erhalten zu haben.
Alle Sprachmodelle haben eines gemeinsam: Sie berechnen das nächste Wort in einem Satz. Vielleicht kennst Du das von der Google-Suche oder dem Autocomplete auf Deinem Smartphone.
Das nächste Wort im Satz ist eine Wahrscheinlichkeitsrechnung. Das Sprachmodell schlägt Dir das Wort vor, das es für am wahrscheinlichsten als das nächste Wort berechnet hat. Für diese Berechnung greift es auf vorher maschinell gelernte Parameter zurück, in diesem Beispiel die Kombinationen von Google-Suchanfragen.

Woher kommen die Berechnungen
Große Sprachmodelle wurden mit riesigen Mengen an Text mit Milliarden von Wörtern trainiert. Im Fall von GPT-3, dem ChatGPT Modell aus dem Jahr 2000, waren das (Quelle):
- Common Crawl (60%): Ein umfangreicher Datensatz, der durch das Lesen des öffentlich zugänglichen Internets gewonnen wurde.
- WebText2 (22%): Ein von OpenAI erstellter Datensatz, der Texte von Webseiten enthält, die auf Reddit empfohlen wurden.
- Books1 und Books2 (16%): Zwei Datensätze, die Texte aus Büchern enthalten. Die genauen Quellen dieser Datensätze sind nicht bekannt.
- Wikipedia (3%): Die freie Online-Enzyklopädie, die von der Internetgemeinschaft gepflegt wird.
Insgesamt sind aus dem Training mit diesen Quellen im Fall von GPT-3 ca. 178 Milliarden Parameter entstanden, die das Große Sprachmodell für seine Berechnungen nutzen kann. Schon ziemlich beeindruckend. Heutige Modelle sind sogar teilweise noch größer.
An dieser Auflistung wird aber auch klar, dass es sich nicht um vollständiges Wissen handelt: Die neusten Internetartikel, Nachrichten und wissenschaftlichen Erkenntnisse sind nicht enthalten. Artikel hinter Paywalls oder Datenbanken mit eingeschränktem Zugriff fehlen ebenfalls.
Ein Großes Sprachmodell ist aufgrund seiner Wahrscheinlichkeitsberechnung auch nicht dafür gemacht, Wissen exakt wiederzugeben. Es ist sich nie zu 100% sicher. In dem nachfolgenden Schaubild wird das deutlich (Quelle):

Transformer-Architektur
Du erkennst in diesem Schaubild das erste Prinzip der sogenannten Transformer-Architektur, die Große Sprachmodelle nutzen: Ein Satz wird in eine Zahlenreihe umgewandelt (Embedding), um dann, vereinfacht gesprochen, das wahrscheinlich nächste Wort nach dieser Zahlenreihe zu berechnen.
In diesem Beispiel ist "person" das wahrscheinlichste nächste Wort am Ende einer langen Berechnung der Parameter von "Who is the most famous ". Es folgen mit etwas Abstand:
- and (6,24% Wahrscheinlichkeit)
- of (4,90% Wahrscheinlichkeit)
- man (4,88% Wahrscheinlichkeit)
Das "GPT" in ChatGPT steht deshalb auch für Generative Pretrained Transformer:
- Es kann neue Texte generieren
- Es wurde mit großen Datenmengen trainiert
- Es kann aus eine Wortkombination in eine Berechnung des wahrscheinlich nächsten Wortes umwandeln
Die Stärke eines Großen Sprachmodells ist es also eben nicht, immer genau die selben Antworten zu generieren. Du hast wahrscheinlich selbst schon erfahren, dass ChatGPT immer etwas andere - vielleicht sogar bessere - Antworten generiert, je mehr Informationen zum Kontext es von Dir erhält. In Kapitel 3 gehen wir auf dieses zweite Prinzip der Transformer-Architektur genauer ein.
Alles nur Wahrscheinlichkeiten
Durch die immer wieder neue Berechnung von Wahrscheinlichkeiten können Große Sprachmodelle in sehr kurzer Zeit Verbindungen zwischen Wörtern herstellen, mit denen wir Menschen uns oft schwer tun:
- Synonyme und verwandte Begriffe
- Übersetzungen und Umformulierungen
- Neue Perspektiven und Denkweisen
Es kann Wörter neu kombinieren und Ideen verbinden, die vorher so noch nicht existiert hatten (man könnte es Kreativität nennen). Und auch wenn ein Großes Sprachmodell kein Bewusstsein hat, kann es auf diese Weise doch unser menschliches Denken erweitern.
Hier kommt der Haken: Es kann dies nur tun, wenn es "richtig" angeleitet wird. Hier spricht man auch von Prompting. Mit ein paar Kniffen kannst Du hier sehr schnell sehr viele neue Ideen erhalten.
Experimente
Probiere dich einmal an den nachfolgenden Experimenten aus. Du findest einen Chatbot, der mit GPT-4o-mini verbunden ist, unten rechts. Das Ziel ist, dass Du etwas Neues über Generative Künstliche Intelligenz lernst. Viel Spaß!