Sind Large Language Models wirklich teuer?
Dieser Blogartikel wurde automatisch erstellt (und übersetzt). Er basiert auf dem folgenden Original, das ich für die Veröffentlichung auf diesem Blog ausgewählt habe:
LLMs are cheap.
Sind Large Language Models wirklich teuer?
Die Kosten für den Betrieb von Large Language Models (LLMs) sind ein oft diskutiertes Thema. Entgegen der verbreiteten Annahme, dass LLMs extrem teuer im Betrieb sind, deutet eine Analyse darauf hin, dass sie in bestimmten Anwendungsfällen überraschend kostengünstig sein können.
Vergleich mit Web-Suchanfragen
Um die Kosten von LLMs besser einordnen zu können, bietet sich ein Vergleich mit Web-Suchanfragen an. Web-Suche ist eine weit verbreitete Technologie, die von den meisten Nutzern als kostenlose Dienstleistung wahrgenommen wird. Die Analyse vergleicht die Preise für LLM-Abfragen mit den Kosten für den Zugriff auf Web-Such-APIs.
Die Preise für Web-Such-APIs variieren je nach Anbieter:
- Google Search (Grounding with Google Search): ca. 35 USD pro 1.000 Abfragen
- SerpApi: ab 15 USD pro 1.000 Abfragen
- Brave Search: ab 5 USD pro 1.000 Abfragen
Kosten von LLM-Abfragen
Um einen fairen Vergleich zu ermöglichen, müssen zwei Faktoren berücksichtigt werden:
- Die Anzahl der Tokens, die pro Abfrage ausgegeben werden
- Der Preis pro Token
Basierend auf einigen Testabfragen mit Gemini 2.5 Flash (ohne Denkmodus) scheint ein Bereich von 500-1000 Tokens eine realistische Schätzung für typische Antworten zu sein. Die Preise pro Token variieren je nach Modell. Einige Beispiele:
- Gemini 1.5 Pro: 0,007 USD / 1.000 Tokens
- GPT-4 Turbo: 0,01 USD / 1.000 Tokens
- Claude 3 Opus: 0,015 USD / 1.000 Tokens
- Gemini 2.5 Flash: 0,0003 USD / 1.000 Tokens
Wenn man von einer durchschnittlichen Abfrage von 1.000 Tokens ausgeht, sind die Kosten für LLM-Abfragen teilweise deutlich geringer als die Kosten für Web-Such-APIs. Einige Modelle sind sogar um Größenordnungen günstiger.
Mögliche Einwände und Gegenargumente
Es gibt natürlich einige Einwände gegen diese vereinfachte Berechnung:
- Die typische LLM-Antwort ist länger: Dies mag in einigen Fällen zutreffen, aber die Analyse konzentriert sich auf den Anwendungsfall, der mit Web-Suchanfragen vergleichbar ist.
- Die LLM-API-Preise sind subventioniert: Es gibt wenig Anzeichen dafür, dass dies der Fall ist. Einige Open-Source-Modelle sind ebenfalls über APIs verfügbar, und deren Preise sind konkurrenzfähig.
- Die Such-API-Preise amortisieren den Aufbau des Suchindex: Dies ist wahrscheinlich richtig, aber der Effekt dürfte bei populären Modellen nicht allzu groß sein.
- Web-Suche ist viel schneller: Die Latenz ist ein wichtiger Faktor, aber LLM-Inferenz wird kontinuierlich optimiert.
Die Zukunft der LLM-Kosten
Es lässt sich argumentieren, dass sinkende Kosten für LLMs weitreichende Auswirkungen haben werden. Es ermöglicht neue Anwendungen und Geschäftsmodelle. Während die eigentlichen LLMs immer günstiger werden, könnten die Kosten für die Backend-Dienste, auf die KI-Agenten zugreifen, in Zukunft das größere Problem darstellen. Die Frage ist, wie diese Dienste für die Nutzung durch KI-Agenten optimiert und monetarisiert werden können.
Es stellt sich die Frage, ob KI-Agenten in Zukunft in einen eskalierenden Wettbewerb mit Webseitenbetreibern treten werden, oder ob sie letztendlich für die genutzten Dienste bezahlen werden. Die Entwicklung zeigt, dass die Optimierung von Datenprovider-Backends, die speziell auf die Bedürfnisse von KI zugeschnitten sind, eine interessante Herausforderung darstellt.