Reproduktion des „Aha-Moments“ von DeepSeek R1: Reasoning mit GRPO und dem Countdown-Spiel

31. Januar 2025

ℹ️Hinweis zur Quelle

Dieser Blogartikel wurde automatisch erstellt (und übersetzt). Er basiert auf dem folgenden Original, das ich für die Veröffentlichung auf diesem Blog ausgewählt habe:
Mini-R1: Reproduce Deepseek R1 „aha moment“ a RL tutorial.

Reproduktion des "Aha-Moments" von DeepSeek R1: Reasoning mit GRPO und dem Countdown-Spiel

Die Veröffentlichung von DeepSeek R1 hat in der KI-Community für Aufsehen gesorgt. DeepSeek-R1 ist ein Open-Source-Modell, das in komplexen Denkaufgaben mit dem o1 von OpenAI konkurriert. Es wurde mithilfe von Group Relative Policy Optimization (GRPO) und einem auf Reinforcement Learning (RL) ausgerichteten mehrstufigen Trainingsansatz entwickelt. Zusätzlich zum Modell wurde auch eine Forschungsarbeit veröffentlicht, die den Entwicklungsprozess detailliert beschreibt.

In dieser Arbeit wurde ein "Aha-Moment" während des Trainings mit reinem RL beschrieben. DeepSeek-R1-Zero, der erste Test von DeepSeek-R1, lernte, einem Problem mehr Bedenkzeit zu widmen, indem er seinen ursprünglichen Ansatz ohne menschliches Feedback oder Daten neu bewertete. Dieses Verhalten wird als "Aha-Moment" bezeichnet, da es die wachsenden Denkfähigkeiten des Modells und das Potenzial von Reinforcement Learning für unerwartete und ausgefeilte Ergebnisse demonstriert.

Dieser Artikel befasst sich mit der Nachbildung dieses "Aha-Moments" von DeepSeek-R1 mithilfe von Group Relative Policy Optimization (GRPO) und dem Countdown-Spiel. Ziel ist es, ein Open-Source-Modell mit Reinforcement Learning zu trainieren, um ihm eigenständig Selbstverifikations- und Suchfähigkeiten zur Lösung des Countdown-Spiels beizubringen.

Das Countdown-Spiel

Das Countdown-Spiel ist ein Zahlenrätsel, bei dem Spieler mit einer Reihe zufällig gezogener Zahlen und grundlegenden Rechenoperationen (+, -, ×, ÷) versuchen, eine Zielzahl zu erreichen oder sich ihr so weit wie möglich anzunähern.

Beispiel:

Zielzahl: 952
Verfügbare Zahlen: 25, 50, 75, 100, 3, 6

Mögliche Lösung:

(100 × (3 × 3)) + (50 + 6 / 3) = 952

Group Relative Policy Optimization (GRPO)

Group Relative Policy Optimization (GRPO) ist ein Reinforcement-Learning-Algorithmus zur Verbesserung der Reasoning-Fähigkeiten von LLMs. Er wurde im DeepSeekMath-Paper im Kontext des mathematischen Reasoning vorgestellt. GRPO modifiziert die traditionelle Proximal Policy Optimization (PPO), indem er die Notwendigkeit eines Value-Function-Modells eliminiert. Stattdessen schätzt er Baselines aus Gruppenergebnissen, wodurch der Speicherbedarf und der Rechenaufwand reduziert werden. GRPO, das jetzt auch vom Qwen-Team verwendet wird, kann mit regel-/binärbasierten Belohnungen sowie mit allgemeinen Belohnungsmodellen verwendet werden, um Modelle in Bezug auf die Hilfsbereitschaft zu verbessern.

Die Funktionsweise von GRPO lässt sich in folgende Schritte unterteilen:

Sampling: Generierung mehrerer Ausgaben für jede Eingabeaufforderung mithilfe der aktuellen Richtlinie.
Reward Scoring: Jede Generierung wird anhand einer Belohnungsfunktion bewertet (regelbasiert oder ergebnisorientiert).
Advantage Calculation: Der durchschnittliche Reward der generierten Ausgaben wird als Baseline verwendet. Der Vorteil jeder Lösung innerhalb der Gruppe wird dann relativ zu dieser Baseline berechnet. Der Reward wird innerhalb einer Gruppe normalisiert.
Policy Optimization: Die Richtlinie versucht, die GRPO-Zielsetzung zu maximieren, die die berechneten Vorteile und einen KL-Divergenzterm umfasst. Dies unterscheidet sich von der Art und Weise, wie PPO den KL-Term innerhalb des Rewards implementiert.

Trainingsbeobachtungen und Ergebnisse

Das Training des Modells umfasste die Verwendung des Jiayi-Pan/Countdown-Tasks-3to4 Datensatzes und des Qwen/Qwen2.5-3B-Instruct Modells. Das Training erfolgte in zwei Phasen: Eine anfängliche Trainingsphase mit Standard-Hyperparametern, gefolgt von einer Phase mit angepassten Hyperparametern, um die Stabilität zu verbessern.

Beobachtungen während des Trainings:

~50 Schritte: Das Modell erlernte das korrekte Format `... ...

Es wurden folgende Annahmen getroffen, warum das Modell von "Word Reasoning" zu "Programmatic Execution" wechselt:

Qwen 2.5 3B ist nicht stark genug oder zu klein. Deepseek erwähnt, dass man ein sehr starkes Basismodell benötigt. Die Belohnungsfunktionen sind nicht gut genug definiert und das Modell "hackt" die Belohnung, um die Gleichung zu lösen. Man könnte versuchen, das Modell zu zwingen, Wörter zu verwenden, z. B. indem man eine Bedingung für die Häufigkeit von Zahlen zu Wörtern verwendet. Das ausschließliche Training mit den Countdown-Spielaufgaben könnte das Modell auf natürliche Weise dazu zwingen, die effektivste Art zur Lösung der Gleichung zu erlernen, da keine anderen Formate erforderlich sind.

Fazit

Die Veröffentlichung von DeepSeek R1 und der dazugehörigen Forschungsarbeit könnte einen Wendepunkt für die Open-Science- und Open-Source-Entwicklung darstellen. Es konnte eine vereinfachte Version des R1-Reasoning mithilfe von GRPO und dem Countdown-Spiel reproduziert werden. Obwohl sich diese Implementierung auf eine bestimmte Aufgabe und ein bestimmtes Reasoning-Format konzentriert, zeigt sie, dass die Methode grundsätzlich funktioniert.

Das Experiment hat gezeigt, dass Reinforcement Learning erhebliche Rechenressourcen erfordert. Die weitere Entwicklung von RL, auch in Bezug auf die Benutzerfreundlichkeit, könnte in Zukunft zu noch bedeutenderen Fortschritten führen. Welchen Weg werden diese Fortschritte ebnen?

Die Kommentare sind geschlossen.