Open-Source Deep Research: Ein Schritt hin zu freien Suchagenten
Dieser Blogartikel wurde automatisch erstellt (und übersetzt). Er basiert auf dem folgenden Original, das ich für die Veröffentlichung auf diesem Blog ausgewählt habe:
Open-source DeepResearch – Freeing our search agents.
Open-Source Deep Research: Ein Schritt hin zu freien Suchagenten
Die Veröffentlichung von Systemen wie OpenAI's Deep Research, das Webinhalte zusammenfasst und Fragen beantwortet, hat großes Interesse geweckt. Besonders beeindruckend sind die Verbesserungen in Benchmarks wie GAIA (General AI Assistants), wo das System beinahe 67% korrekte Antworten im 1-Shot-Verfahren erreicht.
DeepResearch nutzt ein LLM (Large Language Model) und ein internes "Agentic Framework", um Websuchen durchzuführen und Aktionen zu organisieren. Während leistungsstarke LLMs wie DeepSeek R1 frei verfügbar sind, wurden Details zum zugrunde liegenden Agentic Framework von OpenAI nicht offengelegt. Dies motivierte ein Team dazu, in einem 24-Stunden-Projekt eine Open-Source-Alternative zu entwickeln.
Agent Frameworks: Warum sie wichtig sind
Ein Agent Framework ist eine Schicht, die auf einem LLM aufbaut und es diesem ermöglicht, Aktionen auszuführen (z. B. im Web zu suchen oder PDF-Dokumente zu lesen) und seine Operationen in Schritten zu organisieren. Die Integration von LLMs in Agentensysteme kann ihre Fähigkeiten erheblich erweitern. Vergleiche zeigen, dass die Leistung durch den Einsatz eines Agent Frameworks um bis zu 60 Punkte gesteigert werden kann.
GAIA: Eine Herausforderung für Agenten
GAIA gilt als umfassender Benchmark für Agenten. Die Fragen sind komplex und fordern LLM-basierte Systeme in vielerlei Hinsicht heraus. Ein Beispiel zeigt die Notwendigkeit, multimodale Fähigkeiten (zum Extrahieren von Informationen aus Bildern) und das Verketten mehrerer Informationsbeschaffungsschritte zu beherrschen.
Ohne Agentenanwendung erreicht GPT-4 auf GAIA nur etwa 7% der Validierungsmenge. Mit Deep Research erreicht OpenAI hingegen einen Wert von 67,36%, was eine Größenordnung besser ist. Es stellt sich die Frage, ob Open-Source-Tools ähnliche Ergebnisse erzielen können.
Aufbau eines Open Deep Research
Eine Verbesserung gegenüber traditionellen KI-Agentensystemen ist die Verwendung eines sogenannten "Code-Agenten". Dabei drückt der Agent seine Aktionen in Code aus. Dies bietet Vorteile:
- Kompaktere Aktionen: Code ermöglicht die Ausführung paralleler Aktionsströme in weniger Schritten.
- Wiederverwendung von Tools: Code ermöglicht die Nutzung von Tools aus gängigen Bibliotheken.
- Bessere Leistung: Studien zeigen, dass Code-basierte Aktionen intuitiver sind und die umfangreiche Code-Kenntnis von LLMs nutzen.
- Besseres State-Management: Code ermöglicht die einfache Speicherung und Wiederverwendung von Bildern, Audio oder anderen Daten.
Die richtigen Werkzeuge
Um dem Agenten die richtigen Werkzeuge an die Hand zu geben, sind ein Webbrowser und ein einfacher Text-Inspector erforderlich. Diese Werkzeuge wurden aus einem Agenten von Microsoft Research übernommen. Potenzielle Verbesserungen umfassen die Erweiterung der unterstützten Dateiformate, eine feinere Steuerung von Dateien und die Integration eines visuellen Webbrowsers.
In einem 24-Stunden-Sprint konnten bereits Leistungssteigerungen erzielt werden, wobei die Leistung des Agenten auf der GAIA-Validierungsmenge von etwa 46% auf 55,15% gesteigert werden konnte. Dieser Anstieg ist vor allem auf die Verwendung von Code zur Formulierung von Aktionen zurückzuführen.
Die Entwicklung schreitet voran, und es gibt viele Möglichkeiten zur Verbesserung. Es stellt sich die Frage, wie sich die Leistung mit besseren Open-Source-Modellen und weiteren Optimierungen des Frameworks verbessern lässt. Die Community ist eingeladen, sich an dieser Entwicklung zu beteiligen, um gemeinsam ein leistungsfähiges Open-Source-Agentenframework zu entwickeln. Ziel ist es, jedem die Möglichkeit zu geben, einen DeepResearch-ähnlichen Agenten lokal mit den bevorzugten Modellen auszuführen.
Parallel zu diesen Bemühungen sind bereits weitere Open-Source-Implementierungen von Deep Research entstanden, die unterschiedliche Bibliotheken für die Datenindizierung, das Surfen im Web und das Abfragen von LLMs nutzen.
Ein nächster Schritt ist die Entwicklung von GUI-Agenten, die den Bildschirm des Nutzers sehen und direkt mit Maus und Tastatur interagieren können.