DeepScaleR: Mit RL-Skalierung O1-Preview mit 1.5B-Modell übertreffen
Dieser Blogartikel wurde automatisch erstellt (und übersetzt). Er basiert auf dem folgenden Original, das ich für die Veröffentlichung auf diesem Blog ausgewählt habe:
Notion – The all-in-one workspace for your notes, tasks, wikis, and databases..
DeepScaleR: Mit RL-Skalierung O1-Preview mit 1.5B-Modell übertreffen
Ein neues Sprachmodell, DeepScaleR-1.5B-Preview, demonstriert eindrucksvoll, wie Reinforcement Learning (RL) die Fähigkeiten kleinerer Modelle signifikant verbessern kann. Basierend auf dem Modell Deepseek-R1-Distilled-Qwen-1.5B erreicht es eine Genauigkeit von 43.1% Pass@1 beim AIME2024-Test, was einer Verbesserung von 14.3% gegenüber dem Basemodell entspricht. Bemerkenswert ist, dass es damit die Leistung von OpenAI's o1-preview
mit lediglich 1.5 Milliarden Parametern übertrifft. Die zugehörigen Datensätze, Codes und Trainingsprotokolle wurden Open Source veröffentlicht, um die Weiterentwicklung intelligenter Systeme mit RL zu fördern.
DeepScaleR-1.5B-Preview im Vergleich
Modell | AIME 2024 | MATH 500 | AMC 2023 | Minerva Math | Olympiad Bench | Avg. |
---|---|---|---|---|---|---|
DeepScaleR-1.5B-Preview | 43.1 | 87.8 | 73.6 | 30.2 | 50.0 | 57.0 |
DeepSeek-R1-Distill-Qwen-1.5B | 28.8 | 82.8 | 62.9 | 26.5 | 43.3 | 48.9 |
O1-Preview | 40.0 | 81.4 | - | - | - | - |
Demokratisierung von RL für LLMs
Die Open-Source-Veröffentlichung von Deepseek-R1 stellt einen bedeutenden Schritt in Richtung der Demokratisierung von Modellen für komplexes Schlussfolgern dar. Eine der größten Herausforderungen bei der Skalierung von RL ist jedoch der hohe Rechenaufwand. Um dies zu adressieren, nutzt DeepScaleR ein destilliertes Modell und ein neuartiges iteratives Verlängerungsschema für RL. Dies reduziert den Rechenbedarf auf nur noch 3.800 A100-GPU-Stunden – eine Reduktion um das 18,42-fache. Es stellt sich die Frage, ob dies einen neuen Weg für die Entwicklung spezialisierter Modelle ebnet.
Das Rezept von DeepScaleR
Datensatz-Kuration
Der Trainingsdatensatz besteht aus AIME-Problemen von 1984-2023 und AMC-Problemen vor 2023, sowie Fragen aus den Datensätzen Omni-MATH und Still. Der Datenverarbeitungsprozess umfasst:
- Extrahieren von Antworten: Verwendung von
gemini-1.5-pro-002
zur Extraktion von Antworten aus offiziellen AoPS-Lösungen. - Entfernen redundanter Fragen: Einsatz von RAG mit Embeddings von
sentence-transformers/all-MiniLM-L6-v2
zur Eliminierung doppelter Probleme und Vermeidung von Datenverunreinigungen. - Filtern unbewertbarer Fragen: Ausschluss von Problemen, die nicht mit
sympy
bewertet werden können, um verrauschte Belohnungssignale zu vermeiden.
Nach der Deduplizierung und Filterung umfasst der finale Trainingsdatensatz etwa 40.000 einzigartige Problem-Antwort-Paare.
Belohnungsfunktion
Analog zu Deepseek-R1 wird ein Outcome Reward Model (ORM) anstelle eines Process Reward Model (PRM) verwendet, um Reward Hacking zu vermeiden. Die Belohnungsfunktion gibt Folgendes zurück:
1
- Wenn die Antwort des LLM grundlegende LaTeX/Sympy-Prüfungen besteht.0
- Wenn die Antwort des LLM falsch ist oder falsch formatiert ist (z. B. fehlende<think>
,</think>
-Begrenzer).
Iterative Kontextverlängerung
Die Wahl des optimalen Kontextfensters ist eine zentrale Herausforderung bei der Skalierung von RL für Reasoning-Aufgaben. Längere Kontexte bieten zwar mehr Raum zum Denken, verlangsamen aber das Training erheblich. Ein kürzerer Kontext beschleunigt das Training, kann aber die Fähigkeit des Modells zur Lösung schwierigerer Probleme einschränken. Um diesen Konflikt zu lösen, wurde eine iterative Kontextverlängerung angewendet.
Das Training erfolgt in zwei Schritten:
- RL-Training mit maximal 8K Kontext für effektives Reasoning und effizientes Training.
- Skalierung des Trainings auf 16K und 24K Kontext, um anspruchsvollere Probleme zu lösen.
Bootstrapping effektiven CoT mit 8K Kontext
Die Analyse von Fehlern zeigte, dass inkorrekte Antworten im Schnitt dreimal mehr Tokens enthielten als korrekte. Dies deutet darauf hin, dass längere Antworten häufig zu inkorrekten Ergebnissen führen. Durch die Beschränkung auf 8K Kontext wurde das Modell dazu angeregt, den Kontext effektiver zu nutzen.
Basismodell | DeepScaleR-1.5b-8k | Änderung | |
---|---|---|---|
AIME Pass@1 | 28.9% | 33.9% | +5% |
Durchschnittliche Tokens für korrekte Antworten | 6396.0 | 3661.2 | -2734.8 |
Durchschnittliche Tokens für inkorrekte Antworten | 20346.3 | 6976.8 | -13369.5 |
Durchschnittliche Tokens insgesamt | 16335.6 | 5850.9 | −10484.7 |
Erweiterung auf 16K Kontext
Nach etwa 1.000 Schritten begann die Antwortlänge wieder zuzunehmen, was jedoch zu abnehmenden Erträgen führte. Gleichzeitig stieg die Clipping-Rate der Antworten. Diese Beobachtungen führten zu einer Ausweitung auf ein 16K-Kontextfenster.
Übertreffen von O1-Preview mit 24K
Um die Leistung auf das Niveau von o1-preview zu steigern, wurde das Kontextfenster schließlich auf 24K erhöht. Diese Erweiterung ermöglichte es dem Modell, die 40%-Marke bei der AIME-Genauigkeit zu überschreiten und schließlich 43% zu erreichen. Die Kosten für das Training beliefen sich auf etwa 3.800 A100-Stunden.
Evaluation
DeepScaleR wurde auf verschiedenen Wettbewerbsniveau-Mathematik-Benchmarks evaluiert. Die Ergebnisse zeigen eine signifikante Verbesserung gegenüber dem Basismodell und eine Überlegenheit gegenüber anderen aktuellen akademischen Arbeiten. Bemerkenswert ist, dass DeepScaleR das Leistungsniveau von O1-preview mit nur 1,5 Milliarden Parametern erreicht.
Modell | AIME 2024 | MATH 500 | AMC 2023 | Minerva Math | OlympiadBench | Avg. |
---|---|---|---|---|---|---|
Qwen-2.5-Math-7B-Instruct | 13.3 | 79.8 | 50.6 | 34.6 | 40.7 | 43.8 |
rStar-Math-7B | 26.7 | 78.4 | 47.5 | - | 47.1 | - |
Eurus-2-7B-PRIME | 26.7 | 79.2 | 57.8 | 38.6 | 42.1 | 48.9 |
Qwen2.5-7B-SimpleRL | 26.7 | 82.4 | 62.5 | 39.7 | 43.3 | 50.9 |
DeepSeek-R1-Distill-Qwen-1.5B | 28.8 | 82.8 | 62.9 | 26.5 | 43.3 | 48.9 |
Still-1.5B | 32.5 | 84.4 | 66.7 | 29.0 | 45.4 | 51.6 |
DeepScaleR-1.5B-Preview | 43.1 | 87.8 | 73.6 | 30.2 | 50.0 | 57.0 |
O1-Preview | 40.0 | 81.4 | - | - | - | - |
Erkenntnisse
- RL-Skalierung kann sich auch in kleinen Modellen manifestieren. Die Kombination aus hochwertiger SFT-Destillation und RL-Skalierung kann das Reasoning-Potenzial von LLMs freisetzen.
- Iterative Verlängerung ermöglicht eine effektivere Längenskalierung. Die Optimierung des Reasoning in kürzeren Kontexten (8K) ermöglicht ein schnelleres und effektiveres Training in nachfolgenden 16K- und 24K-Läufen.
Fazit
DeepScaleR-1.5B-Preview demonstriert das Potenzial von RL zur Verbesserung der Leistung von Sprachmodellen. Es bleibt abzuwarten, wie sich diese Erkenntnisse auf zukünftige Entwicklungen im Bereich der LLMs auswirken werden.