OCR++: Multi-modale Extraktionspipelines für komplexe Dokumente
Die automatisierte Datenextraktion entwickelt sich durch den Einsatz multimodaler Sprachmodelle von bloßer Texterkennung hin zu echtem visuellen Dokumentenverständnis. Dieser Vortrag zeigt, wie moderne Frameworks wie docling im Zusammenspiel mit Vision-Language Models genutzt werden, um komplexe Layouts in PDFs, Bildern und Scans semantisch zu durchdringen.
Anhand konkreter Beispiele wie der Verarbeitung von Reisekostenbelegen und Frachtbriefen demonstrieren wir, wie diese Systeme Text und visuellen Kontext kombinieren. Neben den technologischen Grundlagen adressieren wir zentrale Herausforderungen im Produktivbetrieb, darunter Latenz, Token-Effizienz und Datensicherheit. Abschließend vermitteln wir Best Practices für die erfolgreiche Integration dieser visuellen KI-Fähigkeiten in bestehende Unternehmensprozesse.