Zurück

Lokale Sprachmodelle effizient betreiben

Dieser Workshop findet am 18. November 2026 online statt.

Wer keine Sprachmodelle in der Cloud nutzen kann, ist auf lokale Hard- und Software angewiesen. Für kleinere Modelle funktioniert das gut, aber größere sind oft nicht ablauffähig, weil sie nicht in den Speicher der GPU passen und/oder auf der CPU zu langsam laufen.

Für viele Szenarien gibt es gut funktionierende Beschleunigungsmechanismen, die dieser Workshop strukturiert beleuchtet.

Dazu gehört außerdem eine genaue Betrachtung unterschiedlicher Hardwareszenarien und ihrer Eignung für verschiedene Anwendungsfälle.

Agenda

Einführung in die Transformer Architektur
Effiziente Nutzung von Embedding-Modellen zum Information Retrieval
Auswahl geeigneter Modelle
Parallele Ausführung und Batch-Größe
Nutzung von Vektordatenbanken mit Quantisierung
Verbesserung der Ergebnisqualität mit Rerankern/Cross-Encodern
Optimierung von generativen Sprachmodellen
transformers-Bibliothek
vLLM
llama.cpp
Quantisierung der Gewichte
Quantisierung des KV-Caches (Turboquant)
Speculative Decoding und Multi-Token Prediction
Skalierbare Architekturen
Pipelines
Verteilung von Einmal-Aufgaben
Zustandslosigkeit, Idempotenz und Caches
Zusammenfassung und Ausblick

Speaker

Christian Winkler beschäftigt sich seit vielen Jahre mit künstlicher Intelligenz, speziell in der automatisierten Analyse natürlichsprachiger Texte (NLP). Als Professor an der TH Nürnberg konzentriert er sich auf die Optimierung von User Experience mithilfe moderner Verfahren. Er forscht und publiziert zu Natural Language Processing und ist regelmäßig Sprecher auf Machine-Learning-Konferenzen.