Möchtet ihr mit eurem Team teilnehmen? Ab drei Personen profitiert ihr von unseren Gruppenrabatten! Direkt im Shop buchen!

Wie viel GPU braucht der Chatbot?

Wir zeigen, was es wirklich braucht, um LLMs in der eigenen Infrastruktur zu betreiben: von Hardware und Software-Stack bis zu den Teamfähigkeiten, die für einen stabilen Betrieb nötig sind. Dabei geht es nicht nur um GPU-Speicher, Quantisierung und optimierte Laufzeiten, sondern auch um die Frage, welche Anforderungen unterschiedliche Use Cases tatsächlich mitbringen.

Anhand konkreter Beispiele wie RAG, Chatbots, Bildgenerierung und Coding-Assistenten beleuchten wir, welche Set-ups in welcher Größenordnung sinnvoll sind – von der einzelnen Workstation bis zum professionellen GPU-Node oder Cluster.

Dabei teilen wir praktische Erfahrungen aus dem Betrieb heterogen gewachsener GPU-Infrastruktur und zeigen, wann Self-Hosting eine gute Option ist, wo hybride Modelle sinnvoll sind und wann ein Managed-Angebot die bessere Wahl sein kann.

Speaker

 

Benjamin Merkel
Benjamin Merkel ist Senior Consultant bei TNG Technology Consulting und zuständig für den reibungslosen Betrieb von AI Services auf TNGs eigenem GPU-Cluster. Schwerpunktmäßig beschäftigt er sich mit der Entwicklung moderner Sprachmodelle und der Optimierung ihrer Performance.

Lukas Rammelmüller
Lukas Rammelmüller ist Senior Consultant bei TNG Technology Consulting. Der promovierte Physiker ist Experte für Kubernetes-Cluster-Administration sowohl in der Cloud als auch auf Bare Metal. Bei TNG ist er mitverantwortlich für den Betrieb des internen GPU-Clusters sowie Ansprechpartner für diverse KI-Dienste.