DeepScaleR: Mit RL-Skalierung O1-Preview mit 1.5B-Modell übertreffen

12. Februar 2025

ℹ️Hinweis zur Quelle

Dieser Blogartikel wurde automatisch erstellt (und übersetzt). Er basiert auf dem folgenden Original, das ich für die Veröffentlichung auf diesem Blog ausgewählt habe:
Notion – The all-in-one workspace for your notes, tasks, wikis, and databases..

DeepScaleR: Mit RL-Skalierung O1-Preview mit 1.5B-Modell übertreffen

Ein neues Sprachmodell, DeepScaleR-1.5B-Preview, demonstriert eindrucksvoll, wie Reinforcement Learning (RL) die Fähigkeiten kleinerer Modelle signifikant verbessern kann. Basierend auf dem Modell Deepseek-R1-Distilled-Qwen-1.5B erreicht es eine Genauigkeit von 43.1% Pass@1 beim AIME2024-Test, was einer Verbesserung von 14.3% gegenüber dem Basemodell entspricht. Bemerkenswert ist, dass es damit die Leistung von OpenAI's o1-preview mit lediglich 1.5 Milliarden Parametern übertrifft. Die zugehörigen Datensätze, Codes und Trainingsprotokolle wurden Open Source veröffentlicht, um die Weiterentwicklung intelligenter Systeme mit RL zu fördern.

DeepScaleR-1.5B-Preview im Vergleich

Modell	AIME 2024	MATH 500	AMC 2023	Minerva Math	Olympiad Bench	Avg.
DeepScaleR-1.5B-Preview	43.1	87.8	73.6	30.2	50.0	57.0
DeepSeek-R1-Distill-Qwen-1.5B	28.8	82.8	62.9	26.5	43.3	48.9
O1-Preview	40.0	81.4	-	-	-	-

Demokratisierung von RL für LLMs

Die Open-Source-Veröffentlichung von Deepseek-R1 stellt einen bedeutenden Schritt in Richtung der Demokratisierung von Modellen für komplexes Schlussfolgern dar. Eine der größten Herausforderungen bei der Skalierung von RL ist jedoch der hohe Rechenaufwand. Um dies zu adressieren, nutzt DeepScaleR ein destilliertes Modell und ein neuartiges iteratives Verlängerungsschema für RL. Dies reduziert den Rechenbedarf auf nur noch 3.800 A100-GPU-Stunden – eine Reduktion um das 18,42-fache. Es stellt sich die Frage, ob dies einen neuen Weg für die Entwicklung spezialisierter Modelle ebnet.

Das Rezept von DeepScaleR

Datensatz-Kuration

Der Trainingsdatensatz besteht aus AIME-Problemen von 1984-2023 und AMC-Problemen vor 2023, sowie Fragen aus den Datensätzen Omni-MATH und Still. Der Datenverarbeitungsprozess umfasst:

Extrahieren von Antworten: Verwendung von gemini-1.5-pro-002 zur Extraktion von Antworten aus offiziellen AoPS-Lösungen.
Entfernen redundanter Fragen: Einsatz von RAG mit Embeddings von sentence-transformers/all-MiniLM-L6-v2 zur Eliminierung doppelter Probleme und Vermeidung von Datenverunreinigungen.
Filtern unbewertbarer Fragen: Ausschluss von Problemen, die nicht mit sympy bewertet werden können, um verrauschte Belohnungssignale zu vermeiden.

Nach der Deduplizierung und Filterung umfasst der finale Trainingsdatensatz etwa 40.000 einzigartige Problem-Antwort-Paare.

Belohnungsfunktion

Analog zu Deepseek-R1 wird ein Outcome Reward Model (ORM) anstelle eines Process Reward Model (PRM) verwendet, um Reward Hacking zu vermeiden. Die Belohnungsfunktion gibt Folgendes zurück:

1 - Wenn die Antwort des LLM grundlegende LaTeX/Sympy-Prüfungen besteht.
0 - Wenn die Antwort des LLM falsch ist oder falsch formatiert ist (z. B. fehlende <think>, </think>-Begrenzer).

Iterative Kontextverlängerung

Die Wahl des optimalen Kontextfensters ist eine zentrale Herausforderung bei der Skalierung von RL für Reasoning-Aufgaben. Längere Kontexte bieten zwar mehr Raum zum Denken, verlangsamen aber das Training erheblich. Ein kürzerer Kontext beschleunigt das Training, kann aber die Fähigkeit des Modells zur Lösung schwierigerer Probleme einschränken. Um diesen Konflikt zu lösen, wurde eine iterative Kontextverlängerung angewendet.

Das Training erfolgt in zwei Schritten:

RL-Training mit maximal 8K Kontext für effektives Reasoning und effizientes Training.
Skalierung des Trainings auf 16K und 24K Kontext, um anspruchsvollere Probleme zu lösen.

Bootstrapping effektiven CoT mit 8K Kontext

Die Analyse von Fehlern zeigte, dass inkorrekte Antworten im Schnitt dreimal mehr Tokens enthielten als korrekte. Dies deutet darauf hin, dass längere Antworten häufig zu inkorrekten Ergebnissen führen. Durch die Beschränkung auf 8K Kontext wurde das Modell dazu angeregt, den Kontext effektiver zu nutzen.

	Basismodell	DeepScaleR-1.5b-8k	Änderung
AIME Pass@1	28.9%	33.9%	+5%
Durchschnittliche Tokens für korrekte Antworten	6396.0	3661.2	-2734.8
Durchschnittliche Tokens für inkorrekte Antworten	20346.3	6976.8	-13369.5
Durchschnittliche Tokens insgesamt	16335.6	5850.9	−10484.7

Erweiterung auf 16K Kontext

Nach etwa 1.000 Schritten begann die Antwortlänge wieder zuzunehmen, was jedoch zu abnehmenden Erträgen führte. Gleichzeitig stieg die Clipping-Rate der Antworten. Diese Beobachtungen führten zu einer Ausweitung auf ein 16K-Kontextfenster.

Übertreffen von O1-Preview mit 24K

Um die Leistung auf das Niveau von o1-preview zu steigern, wurde das Kontextfenster schließlich auf 24K erhöht. Diese Erweiterung ermöglichte es dem Modell, die 40%-Marke bei der AIME-Genauigkeit zu überschreiten und schließlich 43% zu erreichen. Die Kosten für das Training beliefen sich auf etwa 3.800 A100-Stunden.

Evaluation

DeepScaleR wurde auf verschiedenen Wettbewerbsniveau-Mathematik-Benchmarks evaluiert. Die Ergebnisse zeigen eine signifikante Verbesserung gegenüber dem Basismodell und eine Überlegenheit gegenüber anderen aktuellen akademischen Arbeiten. Bemerkenswert ist, dass DeepScaleR das Leistungsniveau von O1-preview mit nur 1,5 Milliarden Parametern erreicht.

Modell	AIME 2024	MATH 500	AMC 2023	Minerva Math	OlympiadBench	Avg.
Qwen-2.5-Math-7B-Instruct	13.3	79.8	50.6	34.6	40.7	43.8
rStar-Math-7B	26.7	78.4	47.5	-	47.1	-
Eurus-2-7B-PRIME	26.7	79.2	57.8	38.6	42.1	48.9
Qwen2.5-7B-SimpleRL	26.7	82.4	62.5	39.7	43.3	50.9
DeepSeek-R1-Distill-Qwen-1.5B	28.8	82.8	62.9	26.5	43.3	48.9
Still-1.5B	32.5	84.4	66.7	29.0	45.4	51.6
DeepScaleR-1.5B-Preview	43.1	87.8	73.6	30.2	50.0	57.0
O1-Preview	40.0	81.4	-	-	-	-

Erkenntnisse

RL-Skalierung kann sich auch in kleinen Modellen manifestieren. Die Kombination aus hochwertiger SFT-Destillation und RL-Skalierung kann das Reasoning-Potenzial von LLMs freisetzen.
Iterative Verlängerung ermöglicht eine effektivere Längenskalierung. Die Optimierung des Reasoning in kürzeren Kontexten (8K) ermöglicht ein schnelleres und effektiveres Training in nachfolgenden 16K- und 24K-Läufen.

Fazit

DeepScaleR-1.5B-Preview demonstriert das Potenzial von RL zur Verbesserung der Leistung von Sprachmodellen. Es bleibt abzuwarten, wie sich diese Erkenntnisse auf zukünftige Entwicklungen im Bereich der LLMs auswirken werden.

Die Kommentare sind geschlossen.