GPT-4.5: Ein subtiler Schritt vorwärts oder ein Wendepunkt im KI-Scaling?

2. März 2025
ℹ️Hinweis zur Quelle

Dieser Blogartikel wurde automatisch erstellt (und übersetzt). Er basiert auf dem folgenden Original, das ich für die Veröffentlichung auf diesem Blog ausgewählt habe:
GPT-4.5 Fails. AGI Cancelled. It’s all over… – YouTube.

GPT-4.5: Ein subtiler Schritt vorwärts oder ein Wendepunkt im KI-Scaling?

Die Veröffentlichung neuer Large Language Models (LLMs) wird oft mit großen Versprechungen begleitet: schneller, besser, günstiger. Doch die Einführung von GPT-4.5 wirft die Frage auf, ob diese kontinuierliche Verbesserung durch reines "Mehr vom Selben" noch haltbar ist.

Was GPT-4.5 (nicht) ist

Entgegen der Erwartung ist GPT-4.5 weder ein Durchbruch in Bezug auf Geschwindigkeit noch auf Benchmarks bezogen. Auch preislich enttäuscht das Modell, da es aktuell als das teuerste auf dem Markt gilt.

Der Clou: Reduzierte Halluzinationen

Der Fokus von GPT-4.5 scheint auf der Reduktion von Halluzinationen zu liegen. Während GPT-4 eine Halluzinationsrate von 0.52 aufweist, reduziert GPT-4.5 diese auf 0.19. Ob dieser Wert aber wirklich einen Unterschied macht, ist fraglich.

Der entscheidende Faktor: 10x mehr Pre-Training Compute

Jeder 0.5-Schritt in der Versionsnummer eines GPT-Modells entspricht in etwa einer Verzehnfachung der Rechenleistung für das Pre-Training. GPT-4.5 bietet somit die zehnfache Rechenleistung von GPT-4. Die Frage ist, ob diese massive Steigerung in gleichem Maße zu einer Verbesserung der Fähigkeiten führt.

Ein Beispiel: Stapeln von Eiern und Nägeln

Ein Vergleich zwischen GPT-3.5 und GPT-4 zeigt, wie sich diese gesteigerte Rechenleistung in der Praxis auswirken kann. Geht es darum, Eier und Nägel zu stapeln, schlägt GPT-3.5 vor, alle Eier auf einen Nagel zu legen. GPT-4 hingegen erkennt, dass man eine Pyramide aus Eiern bauen kann.

GPT-4.5 hingegen ist in der Lage, abstrakte Konzepte zu verknüpfen und subtile Nuancen zu erkennen. Dies zeigt sich besonders, wenn man das Modell mit ungewöhnlichen Aufgaben konfrontiert, die nicht direkt im Trainingsdatensatz enthalten sind.

Ein Testfall: Ein Brief von Kasturba Gandhi

Ein Beispiel hierfür ist die Aufgabe, einen Brief von Kasturba Gandhi (Mahatma Gandhis Frau) an einen US-Präsidentschaftskandidaten in Form eines Elektrons zu verfassen. GPT-3.5 liefert eine sehr allgemeine und wenig überzeugende Antwort, während GPT-4 die Prinzipien der Gewaltlosigkeit und des zivilen Ungehorsams einbezieht und den Brief mit "Liebe und Bewunderung, Dein Mahatma" abschließt. Dies zeigt ein tieferes Verständnis der Materie und die Fähigkeit, sich in die Perspektive der Person hineinzuversetzen.

GPT-4.5 als Synthetic Data Factory

Es wird vermutet, dass GPT-4.5 als eine Art "Synthetic Data Factory" fungiert. Das bedeutet, dass das Modell in erster Linie dazu dient, synthetische Daten zu generieren, mit denen zukünftige Reasoning-Modelle trainiert werden können. Die hohen API-Kosten könnten ein Indiz dafür sein, dass OpenAI verhindern möchte, dass Dritte GPT-4.5 für die Erstellung eigener Modelle nutzen.

Skalierung am Scheideweg?

Die entscheidende Frage ist, ob die kontinuierliche Skalierung der Rechenleistung allein noch zu signifikanten Verbesserungen führt. Oder ob wir an einem Punkt angelangt sind, an dem andere Faktoren wie algorithmische Innovationen und Reinforcement Learning eine größere Rolle spielen müssen.

Ob GPT-4.5 ein Erfolg oder ein Misserfolg wird, wird sich letztendlich daran zeigen, wie gut die zukünftigen Reasoning-Modelle abschneiden, die auf seinen generierten Daten basieren. Sollte sich herausstellen, dass die reinen Compute-Skalierung nicht mehr den gewünschten Effekt erzielt, könnte dies weitreichende Konsequenzen für die zukünftige Entwicklung von KI-Modellen haben.


Die Kommentare sind geschlossen.