Zurück

Wie viel GPU braucht der Chatbot?

Wir zeigen, was es wirklich braucht, um LLMs in der eigenen Infrastruktur zu betreiben: von Hardware und Software-Stack bis zu den Teamfähigkeiten, die für einen stabilen Betrieb nötig sind. Dabei geht es nicht nur um GPU-Speicher, Quantisierung und optimierte Laufzeiten, sondern auch um die Frage, welche Anforderungen unterschiedliche Use Cases tatsächlich mitbringen.

Anhand konkreter Beispiele wie RAG, Chatbots, Bildgenerierung und Coding-Assistenten beleuchten wir, welche Set-ups in welcher Größenordnung sinnvoll sind – von der einzelnen Workstation bis zum professionellen GPU-Node oder Cluster.

Dabei teilen wir praktische Erfahrungen aus dem Betrieb heterogen gewachsener GPU-Infrastruktur und zeigen, wann Self-Hosting eine gute Option ist, wo hybride Modelle sinnvoll sind und wann ein Managed-Angebot die bessere Wahl sein kann.

Speaker

Benjamin Merkel ist Senior Consultant bei TNG Technology Consulting und zuständig für den reibungslosen Betrieb von AI Services auf TNGs eigenem GPU-Cluster. Schwerpunktmäßig beschäftigt er sich mit der Entwicklung moderner Sprachmodelle und der Optimierung ihrer Performance.

Lukas Rammelmüller ist Senior Consultant bei TNG Technology Consulting. Der promovierte Physiker ist Experte für Kubernetes-Cluster-Administration sowohl in der Cloud als auch auf Bare Metal. Bei TNG ist er mitverantwortlich für den Betrieb des internen GPU-Clusters sowie Ansprechpartner für diverse KI-Dienste.