Software für lokale LLMs
Einen Prompt in ChatGPT oder Anthropic zu schreiben, ist einfach. Doch externe Firmen verarbeiten alle darin enthaltene Daten und nutzen sie möglicherweise auch noch weiter zum Training ihrer Modelle.
Möchte (oder muss) man das verhindern und sich gleichzeitig unabhängiger von Cloud-Diensten machen, kann man zumindest kleinere Sprachmodelle auch auf eigener Hardware betreiben. Dazu gibt es unterschiedliche Möglichkeiten, die dieser Vortrag interaktiv aufzeigt.
Ganz besonders lassen sich lokale Sprachmodelle mit mit LM Studio oder ollama betreiben. Beide System arbeiten mit einem eigenen Ablagesystem für Modelle und integrieren auch den Download der Modelldaten. Beide Softwarepakete sind für die gängigen Betriebssysteme verfügbar, aber keine echte Open-Source-Software.
Anders sieht das beim ebenfalls plattformunabhängigen llama.cpp aus, das neben der Open-Source-Lizenz mehr Kontrolle über die Modelle bietet. Ursprünglich dazu gedacht, (quantisierte) Modelle auf CPUs auszuführen, kann es in der Zwischenzeit auch mit GPUs arbeiten und bietet selbst ein komfortables Nutzerinterface.
Für Server und hochskalierbare Anwendungen eignen sich besonders vLLM und SGlang. Beide sind auf die optimierte Inferenz mit GPUs ausgelegt. In der macOS-Welt gibt es das mlx-Framework, das von Apple speziell auf die Apple-Silicon-Architektur optimiert wurde und damit besonders performant ist.
Fast alle genannten Software-Produkte bieten eine Open-AI-kompatible Schnittstelle an. Damit lassen sie sich komfortabel mit Open WebUI als Frontend verbinden. Auch wenn das keine ganz freie Software mehr ist, verschließt man sich durch dessen Nutzung keine Türen, denn durch die standardisierte Schnittstelle lässt sich auch das Frontend leicht austauschen.