KI-Entwicklungen im Überblick: R1 als Wegweiser in stürmischen Zeiten
Dieser Blogartikel wurde automatisch erstellt (und übersetzt). Er basiert auf dem folgenden Original, das ich für die Veröffentlichung auf diesem Blog ausgewählt habe:
Explainer: What’s R1 & Everything Else? – Tim Kellogg.
KI-Entwicklungen im Überblick: R1 als Wegweiser in stürmischen Zeiten
Die rasante Entwicklung im Bereich der Künstlichen Intelligenz (KI) kann schnell zu einem Gefühl der Überforderung führen. Neue Modelle und Architekturen erscheinen in immer kürzeren Abständen. Dieser Artikel fasst die wichtigsten Entwicklungen der letzten Monate zusammen und beleuchtet insbesondere die Bedeutung des Modells R1.
Die wichtigsten Ereignisse der letzten Monate
- September 2024: Start der o1-Preview
- Dezember 2024: Launch von o1 (Vollversion) und o1-Pro
- Dezember 2024: Ankündigung von o3, das ARC-AGI übertrifft und als "AGI" gefeiert wird
- Dezember 2024: Launch von DeepSeek V3
- Januar 2025: Launch von DeepSeek R1, das o1 entspricht, aber Open Source ist
- Januar 2025: Die Universität Hongkong repliziert die Ergebnisse von R1
- Januar 2025: Huggingface kündigt open-r1 zur Replikation von R1 an, vollständig Open Source
Zur Klarstellung:
- o1, o3 und R1 sind Reasoning-Modelle.
- DeepSeek V3 ist ein LLM (Large Language Model), ein Basismodell. Reasoning-Modelle werden von Basismodellen feinabgestimmt.
- ARC-AGI ist ein Benchmark, der für Menschen einfach, für KI aber äußerst schwierig sein soll. Wenn KI diesen Benchmark übertrifft, ist sie in der Lage, das zu tun, was Menschen tun.
Reasoning-Modelle und KI-Agenten
Reasoning-Modelle sind in der Lage, "nachzudenken", bevor sie antworten. LLMs "denken", indem sie Tokens generieren. KI-Agenten zeichnen sich durch zwei Dinge aus:
- Autonomie (Handlungsfähigkeit), um Entscheidungen zu treffen und eine Aufgabe zu erfüllen
- Fähigkeit, mit der Außenwelt zu interagieren
LLMs und Reasoning-Modelle allein generieren nur Tokens und haben daher keine Möglichkeit, eines dieser Dinge zu tun. Sie benötigen Software, um Entscheidungen real zu machen und ihnen Interaktionsfähigkeiten zu verleihen.
Agenten sind ein System von KIs. Es handelt sich um Modelle, die mit Software verbunden sind, um autonom mit der Welt zu interagieren. Möglicherweise auch mit Hardware. Reasoning-Modelle werden oft mit Agenten verwechselt, da das Reasoning derzeit der Flaschenhals ist. Es ist wichtig für die Planung von Aufgaben, die Überwachung, die Validierung und das generelle intelligente Handeln. Ohne Reasoning sind Agenten nicht möglich. Es ist jedoch wahrscheinlich, dass es neue Herausforderungen geben wird, sobald die Reasoning-Benchmarks gesättigt sind.
Die Bedeutung von R1
R1 kostet etwa 30-mal weniger als o1 und erzielt ähnliche Leistungen. Es ist kostengünstig, Open Source und hat das bestätigt, was OpenAI mit o1 und o3 macht. Zudem bestätigte das öffentliche Paper zu R1 die Vorhersagen, wie o1 funktioniert, basierend auf der öffentlichen Dokumentation. Man weiß jetzt, wie o1 zu o3, o4 usw. skaliert.
Da R1 Open Source ist, kann die ganze Welt mit ihren Ideen experimentieren. Dies führt zu schnellerer Innovation und kostengünstigeren Iterationen. R1 zeigte auch, dass der Weg nach vorn in einfachem, grundlegendem Reinforcement Learning (RL) liegt.
Neue Scaling Laws und die Zukunft der KI
Die Scaling Laws, die besagten, dass eine Erhöhung von Daten und Rechenleistung automatisch zu einem besseren Modell führt, sind nicht mehr uneingeschränkt gültig. Es wurden jedoch neue Scaling Laws entdeckt, insbesondere im Bereich der Reasoning-Modelle.
Es hat sich gezeigt, dass die Generierung von mehr Tokens der Schlüssel zum Reasoning ist. Dies führt dazu, dass kleinere Modelle, die schneller rechnen können, intelligenter werden. R1 verwendet GRPO (Group Rewards Policy Optimization), um dem Modell beizubringen, CoT zur Inferenzzeit durchzuführen. Es handelt sich um einfaches Reinforcement Learning (RL) ohne komplizierte Verifizierer oder externe LLMs. R1-Zero ist eine Version von R1 von DeepSeek, die nur GRPO durchführt und nichts anderes. Es ist genauer als R1, wechselt aber willkürlich zwischen verschiedenen Sprachen wie Englisch und Chinesisch.
Es stellt sich die Frage, wie weit diese Entwicklung gehen kann. R1 wurde aus früheren Checkpoints von sich selbst destilliert. Diese Distillation, bei der ein Lehrermodell Trainingsdaten für ein Studentenmodell generiert, ermöglicht es, immer größere Modelle zu erstellen. Die R1-Veröffentlichung bestätigt, dass dies möglich ist. Daher könnte sich dieser Trend noch lange fortsetzen. Die KI-Entwicklung scheint sich also nicht zu verlangsamen. Im Gegenteil, es deutet alles auf eine weitere Beschleunigung hin.
Distealing und geopolitische Implikationen
Der Begriff "Distealing" beschreibt die unbefugte Distillation von Modellen. Die Frage, ob DeepSeek R1 von o1 "distealed" hat, ist umstritten. Unabhängig davon hat ein chinesisches Labor OpenAI's bestes verfügbares Modell übertroffen. Dies deutet auf zunehmende Spannungen im Bereich der KI hin. Es lässt sich argumentieren, dass Software politisch ist und KI im Zentrum steht. Die politischen und geopolitischen Implikationen dieser rasanten Entwicklung sind enorm.
Fazit
R1 hat für mehr Klarheit im Bereich der KI gesorgt und gezeigt, dass die Entwicklung sich rasant beschleunigt. Es stellt sich die Frage, welche Auswirkungen dies auf die Zukunft haben wird und welchen Weg wir einschlagen wollen.