QwQ-32B: Reinforcement Learning als Schlüssel zu verbesserter Modellleistung
Dieser Blogartikel wurde automatisch erstellt (und übersetzt). Er basiert auf dem folgenden Original, das ich für die Veröffentlichung auf diesem Blog ausgewählt habe:
QwQ-32B: Embracing the Power of Reinforcement Learning | Qwen.
QwQ-32B: Reinforcement Learning als Schlüssel zu verbesserter Modellleistung
Die Skalierung von Reinforcement Learning (RL) birgt das Potenzial, die Leistung von Modellen über herkömmliche Pretraining- und Post-Training-Methoden hinaus zu steigern. Jüngste Studien haben gezeigt, dass RL die Argumentationsfähigkeiten von Modellen deutlich verbessern kann. Beispielsweise hat DeepSeek R1 durch die Integration von Cold-Start-Daten und mehrstufigem Training eine hochmoderne Leistung erzielt, die tiefes Denken und komplexes Schließen ermöglicht.
Diese Forschung untersucht die Skalierbarkeit von Reinforcement Learning (RL) und dessen Auswirkungen auf die Verbesserung der Intelligenz großer Sprachmodelle. Vorgestellt wird QwQ-32B, ein Modell mit 32 Milliarden Parametern, das eine Leistung erzielt, die mit DeepSeek-R1 vergleichbar ist, das mit 671 Milliarden Parametern (mit 37 Milliarden aktivierten) aufwartet. Dieses bemerkenswerte Ergebnis unterstreicht die Wirksamkeit von RL, wenn es auf robuste Foundation-Modelle angewendet wird, die auf umfangreichem Weltwissen vortrainiert wurden. Darüber hinaus wurden Agenten-bezogene Fähigkeiten in das Argumentationsmodell integriert, wodurch dieses in die Lage versetzt wird, kritisch zu denken, während es Werkzeuge einsetzt und seine Argumentation auf der Grundlage von Umgebungsfeedback anpasst. Diese Fortschritte demonstrieren nicht nur das transformative Potenzial von RL, sondern ebnen auch den Weg für weitere Innovationen im Streben nach künstlicher allgemeiner Intelligenz.
QwQ-32B ist Open-Weight unter der Apache 2.0-Lizenz.
Evaluierung und Ergebnisse
QwQ-32B wird anhand einer Reihe von Benchmarks evaluiert, die seine mathematischen Argumentations-, Programmier- und allgemeinen Problemlösungsfähigkeiten bewerten sollen. Die Ergebnisse heben die Leistung von QwQ-32B im Vergleich zu anderen führenden Modellen hervor, darunter DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini und das ursprüngliche DeepSeek-R1.
Ausgehend von einem Cold-Start-Checkpoint wurde ein skalierender Reinforcement-Learning-Ansatz (RL) implementiert, der auf ergebnisorientierten Belohnungen basiert. In der ersten Phase wurde RL speziell für Mathematik- und Programmieraufgaben skaliert. Anstatt sich auf traditionelle Belohnungsmodelle zu verlassen, wurde ein Genauigkeitsprüfer für mathematische Probleme verwendet, um die Richtigkeit der endgültigen Lösungen sicherzustellen, sowie ein Code-Ausführungsserver, um zu beurteilen, ob die generierten Codes vordefinierte Testfälle erfolgreich bestehen. Im Verlauf der Trainingsepisoden verbessert sich die Leistung in beiden Bereichen kontinuierlich. Nach der ersten Phase wird eine weitere Phase des RL für allgemeine Fähigkeiten hinzugefügt. Diese wird mit Belohnungen aus einem allgemeinen Belohnungsmodell und einigen regelbasierten Verifizierern trainiert. Es wurde festgestellt, dass diese Phase des RL-Trainings mit einer geringen Anzahl von Schritten die Leistung anderer allgemeiner Fähigkeiten, wie z. B. das Befolgen von Anweisungen, die Übereinstimmung mit den Präferenzen des Menschen und die Agentenleistung, erhöhen kann, ohne dass es zu einem signifikanten Leistungsabfall in Mathematik und Programmierung kommt.
Anwendungsbeispiele
Nachfolgend finden Sie kurze Beispiele, die die Verwendung von QwQ-32B über Hugging Face Transformers und Alibaba Cloud DashScope API demonstrieren.
"How many r's are in the word
# If the environment variable is not configured, replace with your API Key: api_key="sk-xxx"
# How to get an API Key:https://help.aliyun.com/zh/model-studio/developer-reference/get-api-key
"Which is larger, 9.9 or 9.11?"
# Uncomment the following line to return token usage in the last chunk
# "include_usage": True
# If chunk.choices is empty, print usage
Ausblick
Dies markiert den ersten Schritt von Qwen bei der Skalierung von Reinforcement Learning (RL) zur Verbesserung der Argumentationsfähigkeiten. Durch diese Reise wurde nicht nur das immense Potenzial von skaliertem RL erkannt, sondern auch die ungenutzten Möglichkeiten innerhalb vortrainierter Sprachmodelle. Während an der Entwicklung der nächsten Generation von Qwen gearbeitet wird, besteht die Zuversicht, dass die Kombination stärkerer Foundation-Modelle mit RL, das durch skalierte Rechenressourcen unterstützt wird, uns der Erreichung von Artificial General Intelligence (AGI) näher bringen wird. Darüber hinaus wird aktiv die Integration von Agenten mit RL untersucht, um langfristiges Denken zu ermöglichen, mit dem Ziel, mit der Skalierung der Inferenzzeit eine größere Intelligenz freizusetzen.