Zurück

RAG-Dokumenten-Pipelines mit multimodalen Embedding-Modellen

In RAG-basierten Systemen liegt die Herausforderung oft nicht im Tuning des LLM selbst, sondern darin, Dokumente so aufzubereiten, dass sie zuverlässig gefunden und abgerufen werden können. In Unternehmen ist PDF nach wie vor das dominierende Eingabeformat – von textlastigen Berichten über Foliensätze und gescannte Dokumente bis hin zu visuell aufwendigen Präsentationen.

Klassische Verarbeitungspipelines setzen auf OCR und Layoutanalyse, um zunächst Text zu extrahieren, der anschließend in Chunks aufgeteilt und als Embeddings gespeichert wird. Bei textlastigen Dokumenten funktioniert das gut, doch ein Großteil der ursprünglichen Struktur geht dabei oft verloren – vor allem bei Präsentationen, mehrspaltigen Layouts und visuell geprägten Inhalten. Bilder, Diagramme und Grafiken müssen in der Regel gesondert verarbeitet werden, was die Pipeline komplexer und fehleranfälliger macht.

Neuere multimodale Embedding-Modelle eröffnen einen anderen Weg: Ganze PDF-Seiten werden direkt als Bilder eingebettet. So bleiben Layout, visuelle Hierarchie und eingebettete Grafiken in einer einzigen Repräsentation erhalten – und die Dokumentenaufnahme wird deutlich einfacher.

Dieser Vortrag vergleicht klassische OCR-basierte Verarbeitungspipelines mit multimodalen Page-Embeddings. Grundlage sind Benchmarks, die auf realen Unternehmensdokumenten mit verschiedenen Modellen durchgeführt wurden. Er zeigt, wo der Ansatz seine Stärken hat, wo er an Grenzen stößt und wie sich in Python praktische, kosteneffiziente Retrieval-Systeme aufbauen lassen.

Speaker

Arne Grobrügge ist M. Sc. Wirtschaftsinformatiker mit Schwerpunkt Maschinelles Lernen und Informationssicherheit und arbeitet als Data Scientist bei der scieneers GmbH. Im Rahmen von Kundenprojekten entwickelt und überwacht er den Einsatz von Sprachmodellen in Unternehmen, um innovative und wertschöpfende Lösungen zu schaffen