Open-R1: Der Versuch, DeepSeek-R1 zu replizieren und die Geheimnisse des LLM-Reasoning zu lüften
Dieser Blogartikel wurde automatisch erstellt (und übersetzt). Er basiert auf dem folgenden Original, das ich für die Veröffentlichung auf diesem Blog ausgewählt habe:
Open-R1: a fully open reproduction of DeepSeek-R1.
Open-R1: Der Versuch, DeepSeek-R1 zu replizieren und die Geheimnisse des LLM-Reasoning zu lüften
DeepSeek hat mit der Veröffentlichung von DeepSeek-R1 für Aufsehen gesorgt. Das Modell demonstriert beeindruckende Fähigkeiten im Bereich des Reasoning, insbesondere in Mathematik, Programmierung und Logik. Bemerkenswert ist, dass DeepSeek einen detaillierten technischen Bericht veröffentlichte, der die wichtigsten Schritte ihres Trainingsverfahrens umreißt. Ein zentraler Aspekt ist die Anwendung von Reinforcement Learning (RL), um einem Basis-Sprachmodell das Reasoning ohne menschliche Aufsicht beizubringen.
Obwohl DeepSeek-R1 beeindruckende Ergebnisse liefert, bleiben Fragen offen, insbesondere hinsichtlich der Datensammlung, des Modelltrainings und der Skalierungsgesetze. Um diese Fragen zu beantworten und die Transparenz zu erhöhen, wurde das Open-R1-Projekt ins Leben gerufen. Ziel ist es, die Daten- und Trainingspipeline von DeepSeek-R1 systematisch zu rekonstruieren, die Behauptungen zu validieren und die Grenzen offener Reasoning-Modelle zu erweitern.
Die Methode von DeepSeek-R1
DeepSeek-R1 basiert auf DeepSeek-V3, einem Mixture of Experts (MoE) Modell mit 671 Milliarden Parametern. DeepSeek-V3 erzielt eine vergleichbare Leistung wie Modelle wie Sonnet 3.5 und GPT-4o. Besonders hervorzuheben ist die Kosteneffizienz des Trainings, die durch architektonische Änderungen wie Multi Token Prediction (MTP), Multi-Head Latent Attention (MLA) und Hardware-Optimierungen erreicht wurde.
DeepSeek führte zwei Modelle ein: DeepSeek-R1-Zero und DeepSeek-R1. DeepSeek-R1-Zero verzichtete vollständig auf Supervised Fine-Tuning (SFT) und setzte ausschließlich auf Reinforcement Learning (RL). Ein einfaches Belohnungssystem wurde verwendet, um das Modell zu steuern und Feedback basierend auf der Genauigkeit und Struktur der Antworten zu geben. Dieser Ansatz förderte die Entwicklung von Reasoning-Fähigkeiten wie das Aufteilen von Problemen in Schritte und das Überprüfen der eigenen Ausgaben. Die Antworten waren jedoch oft unklar und schwer verständlich.
DeepSeek-R1 hingegen durchlief eine "Kaltstart"-Phase mit Fine-Tuning auf einem kleinen Satz sorgfältig erstellter Beispiele, um Klarheit und Lesbarkeit zu verbessern. Anschließend folgten weitere RL- und Verfeinerungsschritte, einschließlich des Ablehnens minderwertiger Ausgaben. Dadurch entstand ein Modell, das nicht nur gut argumentiert, sondern auch ausgefeilte und konsistente Antworten liefert.
Open-R1: Die fehlenden Puzzleteile
Obwohl die Modellgewichte von DeepSeek-R1 offen sind, sind die Datensätze und der Code, die zum Trainieren des Modells verwendet wurden, nicht öffentlich zugänglich. Hier setzt Open-R1 an. Das Ziel ist es, diese fehlenden Teile zu ergänzen, damit die gesamte Forschungs- und Industrie-Community ähnliche oder bessere Modelle entwickeln kann.
Der Plan von Open-R1 umfasst die folgenden Schritte:
- Replikation der R1-Distill-Modelle durch Destillation eines hochwertigen Reasoning-Datensatzes von DeepSeek-R1.
- Replikation der reinen RL-Pipeline, die DeepSeek zur Erstellung von R1-Zero verwendet hat. Dies beinhaltet die Kuratierung neuer, großer Datensätze für Mathematik, Reasoning und Code.
- Demonstration, dass ein Übergang vom Basismodell über SFT zu RL durch mehrstufiges Training möglich ist.
Die synthetischen Datensätze ermöglichen es jedem, bestehende oder neue LLMs in Reasoning-Modelle umzuwandeln, indem sie einfach darauf feinabgestimmt werden. Die Trainingsrezepte mit RL dienen als Ausgangspunkt für den Aufbau ähnlicher Modelle von Grund auf und ermöglichen es Forschern, noch fortschrittlichere Methoden zu entwickeln.
Das Projekt beschränkt sich nicht nur auf mathematische Datensätze, sondern erforscht auch andere Bereiche wie Code und wissenschaftliche Bereiche wie die Medizin, in denen Reasoning-Modelle erhebliche Auswirkungen haben könnten. Durch die Dokumentation von Erfolgen und Misserfolgen möchte Open-R1 der Community helfen, Zeit und Ressourcen zu sparen.
Fragen bleiben offen: Inwieweit lassen sich die Ergebnisse von DeepSeek-R1 tatsächlich replizieren? Und welche neuen Erkenntnisse lassen sich durch Open-R1 gewinnen, die über die ursprüngliche Arbeit hinausgehen?