Möchtet ihr mit eurem Team teilnehmen? Ab drei Personen profitiert ihr von unseren Gruppenrabatten! Direkt im Shop buchen!

Lokale Sprachmodelle effizient betreiben


Dieser Workshop findet am 18. November 2026 online statt.


Wer keine Sprachmodelle in der Cloud nutzen kann, ist auf lokale Hard- und Software angewiesen. Für kleinere Modelle funktioniert das gut, aber größere sind oft nicht ablauffähig, weil sie nicht in den Speicher der GPU passen und/oder auf der CPU zu langsam laufen.

Für viele Szenarien gibt es gut funktionierende Beschleunigungsmechanismen, die dieser Workshop strukturiert beleuchtet.

Dazu gehört außerdem eine genaue Betrachtung unterschiedlicher Hardwareszenarien und ihrer Eignung für verschiedene Anwendungsfälle.

Agenda

  1. Einführung in die Transformer Architektur
  2. Effiziente Nutzung von Embedding-Modellen zum Information Retrieval
    Auswahl geeigneter Modelle
    Parallele Ausführung und Batch-Größe
    Nutzung von Vektordatenbanken mit Quantisierung
    Verbesserung der Ergebnisqualität mit Rerankern/Cross-Encodern
  3. Optimierung von generativen Sprachmodellen
    transformers-Bibliothek
    vLLM
    llama.cpp
    Quantisierung der Gewichte
    Quantisierung des KV-Caches (Turboquant)
    Speculative Decoding und Multi-Token Prediction
  4. Skalierbare Architekturen
    Pipelines
    Verteilung von Einmal-Aufgaben
    Zustandslosigkeit, Idempotenz und Caches
  5. Zusammenfassung und Ausblick

 

Speaker

 

Christian Winkler
Christian Winkler beschäftigt sich seit vielen Jahre mit künstlicher Intelligenz, speziell in der automatisierten Analyse natürlichsprachiger Texte (NLP). Als Professor an der TH Nürnberg konzentriert er sich auf die Optimierung von User Experience mithilfe moderner Verfahren. Er forscht und publiziert zu Natural Language Processing und ist regelmäßig Sprecher auf Machine-Learning-Konferenzen.