Kapitel 3: Wohin die Aufmerksamkeit geht
Das zweite Prinzip der Transformer-Architektur sorgt dafür, dass ChatGPT sehr schnell die besten Antworten auf Deine Fragen generiert. Es nutzt dafür das sogenannte Kontextfenster.
Damit ein Großes Sprachmodell das nächste Wort in einem Satz berechnen kann, hat es vorher eine große Menge an Texten verarbeitet und daraus Parameter berechnet. Diese Parameter werden nun für die Wahrscheinlichkeitsberechnung eines jeden neuen Wortes herangezogen.
Doch wie genau wurden diese Parameter berechnet? Es handelt sich nicht allein um die Wahrscheinlichkeit, ob ein Wort auf ein anderes folgt. Hinweis am Rande: Da es sich, wie in Kapitel 2 erwähnt, um Zahlenreihen handelt, sind es streng genommen keine Wörter, die errechnet werden, sondern Token.
Alles nur Zahlen
Ein Token kann ein Wort sein, muss es aber nicht. Es kann auch der Teil eines Wortes sein, oder zwei Wörter. Das Große Sprachmodell hat im Laufe seines Trainings selbst festgelegt, was ein Token ist, und jedem Token eine eindeutige Nummer gegeben. In dem nachfolgenden Bild (Quelle) siehst Du ein Beispiel.

Der Umweg
In dem Beispiel des deutschen Textes sieht man, dass einige Wörter in mehrere Token unterteilt wurden. Beispiel: a-cht-et oder ges-am-ten. Vermutlich ist es der komplizierten Deutschen Grammatik geschuldet, dass das Große Sprachmodell diese Wörter lieber aufgeteilt hat.
Allein nur das nächste Wort, oder besser gesagt den nächsten Token zu generieren, macht also wenig Sinn. Je nach Satzbau heisst das Wort schließlich anders: Achten, achteten, achtet, etc. Das Große Sprachmodell kann also nicht nur das nächste Token berechnen, es muss auch den gesamten Satz betrachten.
Während der Verarbeitung von großen Mengen an Texten wurden deshalb nicht nur die Wahrscheinlichkeiten für das nächste Token berechnet, sondern auch
- Wahrscheinlichkeit des Token in einem Satz
- Wahrscheinlichkeit des Token in einem Absatz
- Wahrscheinlichkeit des Token zur Position im Text (z.B. einer Buchseite)
- Wahrscheinlichkeit des Token zum Gesamttext, z.B. einem Buch
Das erklärt die unglaublich große Anzahl an Parametern. Man könnte auch sagen, jedes Token wurde in einem Kontext gespeichert. Es wurden also Parameter berechnet für unterschiedliche Kontexte. Ein Beispiel:
In einem Text über Paris kommen mit größerer Wahrscheinlichkeit die Seine und der Eiffelturm vor als in einem Text über Berlin.
Die Abkürzung
Würde das Große Sprachmodell nun all seine Milliarden Parameter zur Berechnung ein jedes nächsten Token berücksichtigen, so wäre es am Ende doch zu langsam. Die Transformer-Architektur wurde deshalb so entwickelt, dass es sich den Kontext auch beim Generieren von Wörtern zu Nutze macht.
Anstatt also jedes Mal, wenn der Nutzer einen Prompt eingibt, alle vielen Milliarden Parameter zur Berechnung zu nutzen, werden nur die Parameter betrachtet, die in direkter Verbindung zum Prompt stehen.
Das bedeutet, dass das Große Sprachmodell gewissermaßen eine Aufmerksamkeit auf einen Ausschnitt der Daten richtet, die hier und jetzt relevant sind (Attention Mechanism1). Dies ist das zweite Prinzip der Transformer-Architektur.

Die Aufmerksamkeit kann ganz unterschiedlich gesteuert und ausgerichtet werden. Man spricht hier auch von dem Kontext-Fenster, das das Modell berücksichtigt.
Prompts
Deine Aufforderung an die KI spielt wohl die wichtigste Rolle. Wenn der Prompt missverständlich ist oder sprachlich unsauber, hat das Große Sprachmodell Probleme mit der Berechnung. Auch gilt: Je mehr Informationen, desto besser. Je mehr Kontext das Modell erhält, desto besser kann es das wahrscheinlich von Dir gewünschte nächste Wort berechnen.
Chat-Verlauf
Bei jedem Prompt wird auch der Verlauf des Gespräches berücksichtigt. Das bedeutet für Dich, dass Du innerhalb eines Chats immer bessere und detailliertere Angaben machen kannst und die Antworten der KI dementsprechend immer spezifischer werden.
Geheimes im Hintergrund
Viele Software-Anbieter haben im Hintergrund noch weitere Einstellungen vorgenommen, damit Große Sprachmodelle noch spezifischer in eine bestimmte Richtung antworten. Einige Anbieter sind da sehr transparent, einige weniger.
Bei ChatGPT beispielsweise wurde eine Rolle definiert, die der Chatbot einnehmen soll (intern heisst sie einfach nur "personality v2"). Wir wissen aus den Gesprächen mit dem Chatbot, dass es als sehr zuvorkommend, positiv bestärkend und freundlich konfiguriert wurde. Meinungsverschiedenheiten geht es aus dem Weg und es formuliert extrem diplomatisch. Du kannst selbst diese Rolle etwas beeinflussen, indem Du z.B. zu Beginn eines neuen Chat sagst:
Du bist heute brutal ehrlich zu mir!
ChatGPT nutzt aber auch ein so genannten Gedächtnis: Es merkt sich wichtige Informationen aus vergangenen Chats. Du kannst in Deinen Konto-Einstellungen sehen, welche Informationen in dem Gedächtnis gespeichert sind. Beispielsweise: "Der Nutzer hat einen Hund namens Frodo". Diese Infos werden in jedem Gespräch von ChatGPT genutzt. Du kannst sie aber auch wieder löschen oder deaktivieren.
Ein begrenzter Kontext
Ein Großes Sprachmodell kann übrigens nicht unendlich viele Informationen verarbeiten. Das Kontextfenster ist begrenzt. Wenn Du einen sehr langen Chat führst und dabei noch diverse Dokumente zur Verfügung stellst, dann ist das Kontextfenster dieses Chats irgendwann erreicht. Zum Kontextfenster gehört übrigens der gesamte Verlauf plus der jeweils neu zu generierende Text.
Keine Angst, das Modell explodiert dann nicht 💥 aber es fängt an, alte Informationen aus dem Beginn des Chats zu vergessen. Hier sind die Kontextfenster der bekanntesten Modelle einmal umgerechnet:
- Google Gemini 1.5 Flash 2 Mio. Token = ca. 390 Seiten auf Deutsch
- Anthropic Claude 3.5 Sonnet 200.000 Token = ca. 39 Seiten auf Deutsch
- OpenAI GPT-4o, Meta Llama 3.3, Mistral Large 2 oder DeepSeek R1 128.000 Token = ca. 25 Seiten auf Deutsch
Das Beispiel mit den DIN A4 Seiten macht deutlich, wie groß die Kontextfenster in Deutscher Sprache sind. Du kannst also schon sehr lange Dokumente und sehr lange Gespräche mit einem Großen Sprachmodell führen und es wird sich jedes Mal an Vergangenes erinnern können.
Die Aufmerksamkeit lenken
In der Praxis gibt es jedoch ein Problem: Große Sprachmodelle können lange Texte auswerten. Damit kannst Du den Aufmerksamkeits-Mechanismus beeinflussen, indem sich das Modell eben vor allem auf die von Dir bereitgestellten Informationen bezieht. Hier zwei Beispiele:
Lädst Du eine Hausarbeit hoch, konzentriert sich das Modell auf das Thema Deiner Hausarbeit. Stellst Du einen Zeitungsartikel bereit, so generiert das Modell möglicherweise einen Text im Stil dieses Artikels.
Damit weiss das Modell aber noch nicht, was Dir wichtig ist. Erhält ChatGPT einen langen Text von Dir mit dem Prompt "Analysiere bitte diesen Text", so weiss ChatGPT natürlich nicht, was es genau analysieren soll: Rechtschreibung, Stil, Kernaussagen, soziale Auswirkungen, ...
Du kannst also nicht erwarten, dass ein großes Kontextfenster automatisch bedeutet, dass ein Großes Sprachmodell weiss was wichtig ist. Wenn Du zu Beginn des Chats erwähnt hast, dass Du Katzen magst, dann wird das Modell diese Information später möglicherweise wieder "vergessen" haben, wenn die Wichtigkeit dieser Aussage dem Modell nicht klar ist.
ChatGPT kennt alle Fachbegriffe - weiss aber nicht, was sie bedeuten.
All dies führt Dich zu der Erkenntnis, dass Du die Aufmerksamkeit eines Großen Sprachmodells bewusst lenken musst. Es weiß nicht, was Dir wichtig ist, noch hat es einen "gesunden Menschenverstand". Vielleicht sollten wir ein Großes Sprachmodell wie ein kleines Kind behandeln, das zwar schon alle Wörter kennt, aber noch nichts über sie weiss.
Experimente
Probiere dich einmal an den nachfolgenden Experimenten aus. Das Ziel ist, dass Du etwas Neues über Generative Künstliche Intelligenz lernst. Viel Spaß!