Zurück

Beyond the Score: Eine Einführung in LLM-Benchmarking

Benchmarks für neue LLMs gibt es wie Sand am Meer, doch was verbirgt sich hinter diesen Zahlen? Wir zeigen, wie echte Problemlösefähigkeiten von LLMs gemessen werden.

Wir werden uns Methoden anschauen, um praxisrelevante Skills zu bewerten: Coding-Qualität, präzises Tool Calling und Performance in komplexen Agenten-Workflows. Analysieren wir gemeinsam die Schwächen gängiger Benchmarks und entdecken stattdessen robuste Evaluierungsansätze: von Ground-Truth-Vergleichen über LLM-as-a-Judge bis hin zu automatisierten Code-Tests. Wir betrachten einen Entscheidungsrahmen, der Latenz, Kosten und Output-Qualität intelligent abwägt.

Wir lernen, wie wir LLMs wie ein Engineer bewerten können.

Vorkenntnisse

Grundlegende Anwendungsentwicklung mit verschiedenen LLMs

Lernziele

Die Zuhörerinnen und Zuhörer werden die Grundlagen von LLM Benchmarks kennenlernen, ein grundlegendes Verständnis für dessen Hintergründe erlangen und die Bedeutung von Evaluationen in der LLM-Anwendungsentwicklung kennenlernen.

Speaker

Lennard Schiefelbein ist Senior Consultant bei TNG Technology Consulting. Neben seiner Tätigkeit als Engineer in mehreren KI-Projekten engagiert er sich für diverse Themen im Innovation Hacking Team von TNG. Dort arbeitete er in verschiedenen Bereichen, einschließlich Reinforcement Learning, Computer Vision und LLMs. Bevor er zu TNG kam, studierte er Mathematik in Bonn und an der TU München.

Jonathan du Mesnil de Rochemont ist Software Consultant bei TNG Technology Consulting. Im Innovation Hacking Team liegt sein Fokus auf der Benchmarking- und Evaluierung großer Sprachmodelle. Darüber hinaus arbeitet er an diversen Projekten in den Bereichen Maschinelles Lernen und Robotik.

Jetzt Tickets sichern