GPU-Strategie von Fly.io: Eine Bilanz
Dieser Blogartikel wurde automatisch erstellt (und übersetzt). Er basiert auf dem folgenden Original, das ich für die Veröffentlichung auf diesem Blog ausgewählt habe:
We Were Wrong About GPUs · The Fly Blog.
GPU-Strategie von Fly.io: Eine Bilanz
Fly.io hat frühzeitig auf den Einsatz von GPUs für KI/ML-Anwendungen gesetzt und dafür eigene GPU-Maschinen (Fly Machines) entwickelt. Nun zieht das Unternehmen eine Bilanz dieser Strategie, die zwar die Bedeutung von KI/ML bestätigte, aber auch unerwartete Herausforderungen und Veränderungen im Markt offenbarte.
Die anfängliche Vision
Die Idee war, Entwicklern den Zugriff auf GPUs für Inferencing-Aufgaben zu ermöglichen, indem GPU-beschleunigte virtuelle Maschinen auf der globalen Bare-Metal-Infrastruktur von Fly.io bereitgestellt werden. Im Gegensatz zu herkömmlichen Virtualisierungslösungen, die auf etablierten Hypervisoren wie VMware oder QEMU basieren, entwickelte Fly.io eine eigene, schlanke Lösung, um kurze Startzeiten zu gewährleisten. Dieser Ansatz erwies sich jedoch als komplex, insbesondere im Hinblick auf die Integration mit den proprietären Nvidia-Treibern.
Herausforderungen und Erkenntnisse
Ein wesentlicher Kostenfaktor war die Notwendigkeit, dedizierte Server für GPU-Workloads bereitzustellen, um Sicherheitsrisiken zu minimieren. Dies führte zu einer geringeren Auslastung und höheren Kosten. Auch die Integration der Nvidia-Treiber in die eigene Hypervisor-Lösung gestaltete sich schwierig und zeitaufwendig.
Doch das größte Problem lag in der Marktentwicklung: Anstatt einzelne GPUs oder ML-Modelle zu nutzen, wandten sich Entwickler vermehrt Large Language Models (LLMs) und deren Cloud-basierte APIs zu. Für diese Anwendungsfälle, in denen es primär auf die Anzahl der Token pro Sekunde ankommt, spielen Millisekunden-Latenzen eine geringere Rolle. Dies erschwert es Fly.io, seine Stärken – die Kombination aus App-Servern, GPUs und Objektspeicher unter einem Top-of-Rack-Switch – auszuspielen.
Die veränderte Marktlage
Es lässt sich argumentieren, dass der Markt für KI-Anwendungen sich stark in Richtung von Cloud-Diensten wie OpenAI und Anthropic verschoben hat. Diese Dienste bieten ausreichend schnelle APIs, sodass Entwickler weniger Anreize haben, eigene GPU-Infrastrukturen aufzubauen. Für Entwickler, die auf eine kosteneffiziente GPU Lösung setzen, bleiben Alternativen wie Replicate und RunPod.
Für anspruchsvollere Anwendungsfälle, bei denen es auf maximale Rechenleistung ankommt, sind die GPU-Angebote von Fly.io möglicherweise nicht ausreichend. Diese Anwender benötigen oft Cluster aus High-End-GPUs wie H100. Es stellt sich die Frage, ob es einen Markt für kleinere, virtualisierte GPU-Ressourcen gibt, wie sie beispielsweise durch Nvidia MIG (Multi-Instance GPU) bereitgestellt werden könnten. Für vollständig virtualisierte Workloads ist diese Technologie jedoch noch nicht ausgereift.
Konsequenzen und Ausblick
Fly.io wird seine GPU-Strategie anpassen und sich auf die Bereitstellung von L40S-GPUs konzentrieren, die sich als brauchbare Option für bestimmte Anwendungsfälle erwiesen haben. Die Investition in GPUs wird jedoch nicht als Fehlschlag betrachtet, da sie wertvolle Erkenntnisse lieferte und das Unternehmen zwang, innovative Lösungen im Bereich der Virtualisierung und Sicherheit zu entwickeln.
Die Entwicklung zeigt, dass Flexibilität und die Bereitschaft, sich an veränderte Marktbedingungen anzupassen, entscheidend für den Erfolg eines Startups sind. Fly.io hat aus seinen Fehlern gelernt und wird seine Ressourcen nun auf andere Bereiche konzentrieren, in denen das Unternehmen seine Stärken besser ausspielen kann.