Zurück

Die ChatGPT-Architektur für Bilder: Wie Vision Transformer CNNs in Vision Use Cases schlagen

In diesem Vortrag werden wir die evolutionäre Reise der Bildverarbeitungstechnologien beleuchten, angefangen bei klassischen Ansätzen über den Siegeszug von CNNs und deren Weiterentwicklung bis zur jüngsten Einführung des Vision Transformers (ViT).

Dabei wird erörtert, warum ViT in der heutigen Zeit eine vielversprechende Option für Vision Use Cases darstellen und welche Vorteile gegenüber CNNs bestehen. Wir werden auf die spezifischen Herausforderungen und Anforderungen der modernen Bildverarbeitung eingehen und zeigen, wie ViT in der Lage sind, diese zu bewältigen.

Lernziele

Einblick in aktuelle Use Cases und Lösungsansätze durch Vision Transformer

Speaker

Nils Uhrberg ist ein erfahrener Machine Learning Engineer, spezialisiert auf industrielle Anwendungen und MLOps-Optimierung. Er fokussiert sich auf Computer-Vision-Modelle, um Unternehmen bei Effizienzsteigerung und Wettbewerbsfähigkeit zu unterstützen. Dank breiter Erfahrung löst er komplexe Probleme und maximiert ML-Leistung.

Denis Stalz-John spezialisiert sich auf die Bereiche Computer Vision, Semantische Segmentierung, Object Detection und Deep Learning. Sein beruflicher Einstieg erfolgte beim Corporate Research der Robert Bosch GmbH im Bereich Fahrer-Assistenzsysteme und autonomes Fahren. Seit 2018 arbeitet er als Data Scientist bei der codecentric AG.