Kapitel 4: Das beste Modell für Dich
Da Große Sprachmodelle eine Black Box sind und wir lediglich den Input und den dazugehörigen Output bewerten können, ist ein Vergleich der vielen Modelle nicht ohne Weiteres möglich.
Die Arena
Die Unternehmen Google, OpenAI (stark von Microsoft unterstützt), Meta (vormals Facebook), X (vormals Twitter), Mistral, DeepSeek und viele mehr haben alle Große Sprachmodelle auf den Markt gebracht - jeweils in unterschiedlichen Versionen und mit verschiedenen Fähigkeiten.
Wie Du schon erfahren hast, hängt die Antwort eines Großen Sprachmodells stark von den Daten ab, mit denen das Modell seine Parameter berechnet hat (Maschinelles Lernen). Es könnte also sein, dass es hier Unterschiede gibt. Daneben gab es noch das überwachte Lernen, in denen Menschen dem Modell strukturierte Daten oder auch direktes Feedback gegeben haben. Auch hier könnte es also Unterschiede geben.
Eine bekannte Plattform zur Bewertung von Großen Sprachmodellen ist die Chatbot Arena. Auf dieser Webseite vergleichen Ehrenamtliche blind (!) jeweils die Sprachantwort zweier Modelle. Welches Model gewinnt, erhält Punkte. Die relativen Gewinne ergeben am Ende den "Arena Score". Aktuell sind 195 Modelle auf der Plattform verfügbar.

Du kannst an der Auflistung der ersten 12 Plätze schon sehen, dass das Rennen sehr knapp ist. Zwischen dem besten und dem letzten Modell in diesem Screenshot liegen nur ca. 7% an Arena Score. Man kann also jetzt schon festhalten, dass hier kein großer Unterschied zwischen den "großen" Sprachmodellen zu erkennen ist.
Hinzu kommt, dass der blinde Vergleich zweier Antworten natürlich immer sehr subjektiv ist. Möglicherweise gewinnen die Modelle öfter, die menschlicher wirken - und nicht notwendigerweise die, die eine Aufgabe besser erledigen.
Der Vergleich der Antworten zweier Modelle erfolgt jeweils, nachdem ein Prompt eingegeben wurde. Dieses einmalige Prompten ohne Zugabe von Kontext-Informationen (Zero-Shot Prompting) ist für Große Sprachmodelle grundsätzlich sehr herausfordernd. Der Arena-Score sagt also nichts darüber aus, wie sich Modelle im Chatverlauf oder nach Zugabe von mehr Informationen schlagen.
Beeindruckende Testergebnisse
Unser neustes Modell hat außergewöhnliche MINT Fähigkeiten - mit besonderen Stärken in Wissenschaft, Mathe und Programmierung.
In dieser Aussage, die ich frei von der OpenAI Webseite übersetzt habe, heben die Macher von ChatGPT die Fähigkeiten des neusten Modells hervor. Jedes Mal, so scheint es, wenn ein neues Modell präsentiert wird, erzielt dies noch bessere Ergebnisse in bestimmten Tests. Hier ein Beispiel:

In diesem Beispiel ging es im Speziellen um das "Reasoning Model" o3-mini, auf dessen Fähigkeiten des logischen Denkens im nächsten Kapitel näher eingegangen wird.
Diese Testergebnisse sind sicherlich außergewöhnlich, ohne Frage. Doch in der Frage, was das beste Modell für Dich ist, bringt es uns wahrscheinlich nicht weiter. Es sind jeweils sehr spezielle Tests für sehr spezielle Anwendungsfälle.
An diesem Beispiel sieht man sehr gut, dass die Marketing-Abteilung von OpenAI das neue Modell mit menschlichen Fähigkeiten bewirbt. Die Fähigkeiten eines Großen Sprachmodells werden mit denen von Menschen verglichen. Ein bekannter Mathe-Wettbewerb aus den USA passt da gut in die Marketing-Botschaft.
Wie Du in den vorherigen Kapitel gesehen hast, berechnen Große Sprachmodelle Wahrscheinlichkeiten. Wenn Du also beispielsweise mit einem Großen Sprachmodell für eine Mathe-Prüfung lernst, willst Du sicherlich, dass es in 100% der Fälle korrekte Ergebnisse liefert, und nicht in 87,3% der Fälle. Wahrscheinlich würde also niemand für einen Mathe-Wettbewerb mit ChatGPT lernen.
Diese beeindruckenden Testergebnisse zeigen einen Fortschritt in der Entwicklung der Großen Sprachmodelle. Anwendungsfälle ergeben sich für Dich daraus nicht automatisch.
Ein weiterer Kritikpunkt ist: Viele der marketingwirksam genutzten Testergebnisse der großen KI-Anbieter stammen aus Multiple-Choice-Prüfungen für Menschen, deren Antworten im Rahmen des Maschinellen Lernens der KI auch einfach "auswendig gelernt" sein könnten.
Beispielsweise gab es in 2023 die Schlagzeile, dass ChatGPT das US-Examen für Steuerberater bestanden hat. Auch das war eine Ankreuz-Prüfung. Es ist also möglich, dass das Große Sprachmodell die richtigen Antworten als Parameter abgespeichert hat (z.B. Frage 14 - Antwort B), ohne den Kontext der Aufgabenstellung.
Die Stärken Großer Sprachmodelle
Die veröffentlichten Testergebnisse sollte man also mit Vorsicht genießen. Du hast schon in den vorherigen Kapiteln gesehen, dass Große Sprachmodelle ohnehin anders "denken" als Menschen.
Hinzu kommt, dass sie in kurzer Zeit eine viel größere Menge an Daten verarbeiten, extrem schnell Muster aufdecken und relevante Textstellen finden können. Die bekannten Chatbots können mit ihren menschlichen Antworten schnell den Eindruck erwecken, dass sie uns Menschen ersetzen könnten. Schauen wir uns deshalb einmal die Gemeinsamkeiten und Unterschiede zu menschlichem Denken etwas genauer an.
Gemeinsamkeiten Menschen und Große Sprachmodelle:
- Verwandte Wörter dem Sinn nach verbinden (Semantik), z.B. Vulkan und Lava
- Die Aufmerksamkeit auf relevante Themen und Begriffe lenken, Muster erkennen
- Können Texte "lesen" und erstellen
- Ihre "Datengrundlage" könnte Verzerrungen (Biases) und Falschinformationen enthalten
Was Menschen anders machen:
- Menschen verhalten sich je nach Physis, Emotionen und gemachten Erfahrungen sehr unterschiedlich
- Menschen lernen anders, sehr viel findet aktiv, emotional und unterbewusst statt
- Menschen bilden sich oft zuerst eine Meinung, danach kommt die Rationalisierung
- Menschen denken und handeln oft intuitiv und routiniert (schnelles Denken, langsames Denken)
Das Zusammenspiel
Es fällt sofort auf, dass Große Sprachmodelle wahnsinnig schnell große Datenmengen auswerten können. Ein Ansatz, den Menschen aufgrund des Aufwandes grundsätzlich vermeiden wollen. [Es sei denn, es handelt sich z.B. um einen Roman: Dann lesen wir das Buch aus einem anderen Grund.]
Das Lesen von langen Dokumenten kostet sehr viel Zeit. Außerdem streben wir Menschen oft nach eindeutigen Aussagen: 95% bedeutet bei uns "immer" und 48 zu 52 bedeutet oft einfach "gleichauf". Menschen sind keine Taschenrechner, die für alles, was sie lesen, Parameter berechnen.
Ein großes Potenzial kann es also sein, Menschen und Große Sprachmodelle zusammen zu bringen. Der Mensch gibt die Richtung vor, gibt Feedback, liefert Informationen. Das Modell verarbeitet Daten, findet Muster und wertet aus.
Stelle Dir ein Großes Sprachmodell als Assistenz oder als Praktikant*in vor:
- Es hat keine Ahnung von Deiner Situation und braucht viele Informationen von Dir, um überhaupt eine sinnvolle Arbeit verrichten zu können
- Es ist unglaublich geduldig
- Es merkt sich alles (solange Du im Kontextfenster bleibst)
Anwendungsfälle
Nachfolgend habe ich Dir Anwendungsfälle skizziert, die Du zusammen mit einem Sprachmodell ausprobieren kannst. Der wahrscheinlich beste Weg herauszufinden, welches Modell für Dich das beste ist: Ausprobieren.
Einen Artikel oder Text schreiben
In Zeiten von KI-generieren Texten ist es zum einen einfacher geworden, Texte zu schreiben. Es ist aber auch schwerer geworden, gute Texte zu schreiben, denn niemand hat mehr Lust, einen KI-generierten Text zu lesen. Hier ein Beispiel, wie Deine Zusammenarbeit mit der KI aussehen kann:
- Erster Entwurf, Überprüfung von Grammatik und Satzbau 🤖
- Übersetzen und Umwandeln von Text (Sprache, Format, etc.) 🤖
- Die passenden Worte finden 🧑💼
- Einzigartigen Erzählstil entwickeln und Spannungsbogen spannen 🧑💼
Recherchieren und Analysieren
Auf Webseiten wie Perplexity oder Consensus kannst Du heute sehr schnell etwas im Internet suchen. Gute Studierende, Journalisten oder Forschende wissen jedoch, dass das nur die halbe Miete ist: Jede Aussage und Quelle muss auch kurz bewertet werden. Im Zusammenspiel mit KI kannst Du:
- Quellen und Herkunft bewerten 🧑⚕️
- Kriterien für Deine Analyse aufstellen 🧑⚕️
- Die KI kann Muster finden und Verbindungen aufdecken 🤖
- Blinde flecken identifizieren 🤖
Neues lernen
Es ist natürlich verlockend, ein Großes Sprachmodell als Wissensquelle zu behandeln, die man immer alles fragen kann. Doch Du hast schon gesehen, dass diese Modelle so nicht funktionieren. Trotzdem kannst Du mit ihrer Hilfe sehr viel Neues lernen, wenn...
- Du selbst aktiv wirst und neues Wissen am eigenen Leib erfährst, z.B. im Job oder im Projekt (Kontextualisierung) 🧑🔬
- Du neues Wissen praktisch anwendest, z.B. mit anderen darüber sprichst 🧑🔬
- Die KI kann Dir dabei neue Perspektiven zeigen 🤖
- Die KI kann sehr gut kritisieren und diskutieren, so dass Du immer besser wirst in dem, was Du tust 🤖
Experimente
Probiere Dich einmal an einem Großen Sprachmodell aus, das Du noch nicht kennst. Viele Modelle sind auch in ihren kostenlosen Varianten sehr mächtig. Hier ist eine Liste der bekanntesten Anbieter:
OpenAI
ChatGPT (Web-Version)
Anthropic
Claude (Web-Version)
Mistral
Le Chat (Web-Version)
Gemini (Web-Version)