Kosteneffiziente PDF-Verarbeitung mit LLMs: Ein Durchbruch für RAG-Systeme

6. Februar 2025

ℹ️Hinweis zur Quelle

Dieser Blogartikel wurde automatisch erstellt (und übersetzt). Er basiert auf dem folgenden Original, das ich für die Veröffentlichung auf diesem Blog ausgewählt habe:
Sergey’s Blog.

Kosteneffiziente PDF-Verarbeitung mit LLMs: Ein Durchbruch für RAG-Systeme

Die Aufbereitung von PDFs in maschinenlesbare Textblöcke, das sogenannte Chunking, ist eine zentrale Herausforderung für RAG (Retrieval-Augmented Generation)-Systeme. Während sowohl Open-Source- als auch proprietäre Lösungen existieren, mangelt es oft an einer idealen Kombination aus Genauigkeit, Skalierbarkeit und Kosteneffizienz.

Die Herausforderungen bei der PDF-Verarbeitung

Bestehende Lösungen haben Schwierigkeiten mit komplexen Layouts realer Dokumente. Open-Source-Alternativen erfordern oft den Einsatz mehrerer spezialisierter ML-Modelle für Layout-Erkennung, Tabellenanalyse und Markdown-Konvertierung. Proprietäre Lösungen sind zwar kostspielig, erreichen aber dennoch keine konsistente Genauigkeit, insbesondere bei großen Datensätzen. Der Einsatz großer Foundation Models scheint naheliegend, hat sich aber bisher nicht als kosteneffizienter erwiesen und weist zudem Inkonsistenzen auf.

Gemini Flash 2.0 als Lösung

Google bietet mit Gemini Flash 2.0 eine interessante Alternative. Interne Tests zeigen eine nahezu perfekte OCR-Genauigkeit bei gleichzeitig geringen Kosten. Die folgende Tabelle verdeutlicht das Kostenverhältnis:

PDF zu Markdown, Seiten pro Dollar

≈ 12,000 (noch nicht getestet)

_Alle LLM-Anbieter sind mit ihren Batch-Preisen notiert.

Genauigkeit und Tabellenextraktion

Die Tabellenidentifizierung und -extraktion stellt eine besondere Herausforderung dar. Komplexe Layouts, ungewöhnliche Formatierungen und inkonsistente Datenqualität erschweren eine zuverlässige Extraktion. Die Genauigkeit von Gemini Flash 2.0 wurde anhand eines spezifischen Benchmarks getestet, der reale Herausforderungen wie schlechte Scans, verschiedene Sprachen und komplexe Tabellenstrukturen berücksichtigt. Die Ergebnisse zeigen, dass Gemini Flash 2.0 zwar leicht hinter dem Modell von Reducto zurückbleibt (0,84 vs. 0,90), die meisten Diskrepanzen jedoch geringfügige strukturelle Variationen darstellen, die das Verständnis der Tabelle durch ein LLM nicht wesentlich beeinträchtigen würden. Besonders hervorzuheben ist, dass numerische Werte selten falsch interpretiert werden. Abgesehen von der Tabellenanalyse liefert Gemini Flash 2.0 durchgängig eine nahezu perfekte Genauigkeit bei allen anderen Aspekten der PDF-zu-Markdown-Konvertierung.

Chunking mit LLMs

Die Markdown-Extraktion ist jedoch nur der erste Schritt. Für eine effektive Nutzung in RAG-Pipelines müssen Dokumente in kleinere, semantisch sinnvolle Abschnitte (Chunks) unterteilt werden. Studien haben gezeigt, dass LLM-basiertes Chunking andere Strategien hinsichtlich der Abrufgenauigkeit übertreffen kann. LLMs zeichnen sich durch das Verständnis von Kontext und die Identifizierung natürlicher Grenzen im Text aus, was sie für die Erstellung semantisch sinnvoller Chunks prädestiniert. Bisher war LLM-basiertes Chunking jedoch mit hohen Kosten verbunden. Mit Gemini Flash 2.0 ändert sich dies.

CHUNKING_PROMPT """ OCR die folgende Seite in Markdown. Tabellen sollten als HTML formatiert werden. Umschließen Sie Ihre Ausgabe nicht mit dreifachen Backticks. Teilen Sie das Dokument in Abschnitte von etwa 250 - 1000 Wörtern auf. Unser Ziel ist es, Teile der Seite mit dem gleichen semantischen Thema zu identifizieren. Diese Chunks werden eingebettet und in einer RAG-Pipeline verwendet. Umschließen Sie die Chunks mit HTML-Tags. """

Verlust von Bounding Boxes

Die Markdown-Extraktion und das Chunking lösen zwar viele Probleme der Dokumentenverarbeitung, bringen aber eine Einschränkung mit sich: den Verlust von Bounding-Box-Informationen. Dies bedeutet, dass Benutzer nicht mehr sehen können, wo sich bestimmte Informationen im Originaldokument befinden. Stattdessen verweisen Zitate auf eine allgemeine Seitenzahl oder isolierte Auszüge. Bounding Boxes sind jedoch wichtig, um extrahierte Informationen mit ihrer genauen Position in der PDF-Quelldatei zu verknüpfen. Es besteht jedoch die Möglichkeit, dass LLMs in Zukunft in der Lage sein werden, diese Information präzise zuzuordnen.

Fazit

Durch die Kombination der genannten Lösungen lässt sich eine elegante und kostengünstige Indexierungspipeline realisieren. Die Fortschritte in den Bereichen Parsing, Chunking und Bounding-Box-Erkennung bringen eine Zukunft näher, in der die Dokumentenverarbeitung effizient und mühelos ist. Es bleibt abzuwarten, wie sich die Technologie weiterentwickelt und welche neuen Möglichkeiten sich dadurch eröffnen.

Die Kommentare sind geschlossen.