Anleitung

Ollama-Server einrichten: eigene LLMs selbst hosten

Diese Anleitung zeigt Schritt für Schritt, wie du Ollama auf einem dedizierten GPU-Server einrichtest — vom NVIDIA-Treiber über das erste Modell bis zur abgesicherten API. Am Ende hast du einen privaten LLM-Endpunkt in Frankfurt, DSGVO-konform und ohne Token-Abrechnung.

Ollama-Server mieten

Ollama ist der schnellste Weg, ein lokales Large Language Model produktiv zu betreiben: Es bündelt Modell-Download, Quantisierung und eine OpenAI-kompatible API in einem einzigen Binary. Der Haken: Ohne GPU ist die Inferenz zäh. Ein dedizierter Server mit RTX 4090 oder RTX 5090 liefert die nötige Rechenleistung — ohne Preemption , zu festen monatlichen Kosten.

Voraussetzungen

Du brauchst Root-Zugriff auf einen Linux-Server (Ubuntu 22.04 oder 24.04 sind am unkompliziertesten), eine NVIDIA-GPU mit ausreichend VRAM für dein Zielmodell und idealerweise eine eigene Domain für das TLS-Zertifikat. Wie viel VRAM ein bestimmtes Modell belegt, klärt unser Ratgeber Welche GPU und wie viel VRAM für welches LLM? — als grobe Orientierung: 7B- bis 13B-Modelle laufen bequem auf 24 GB, für 70B brauchst du Quantisierung.

Ollama-Server einrichten — Schritt für Schritt

  1. Server bereitstellen: Miete einen GPU-Server für KI mit RTX 4090 oder 5090 und installiere ein aktuelles Ubuntu. Root-Zugriff ist Voraussetzung, damit du Treiber und Dienste frei einrichten kannst.
  2. NVIDIA-Treiber und CUDA installieren: Spiele den passenden NVIDIA-Treiber ein und prüfe mit dem Kommando nvidia-smi, dass die Karte erkannt wird. Ollama nutzt CUDA für die GPU-Beschleunigung; ohne funktionierenden Treiber fällt es auf die langsame CPU zurück.
  3. Ollama installieren: Das offizielle Installationsskript richtet das Binary und einen systemd-Dienst ein — danach startet Ollama automatisch beim Booten und läuft als Hintergrunddienst.
  4. Modell laden und starten: Mit ollama pull <modell> lädst du ein Modell herunter (etwa ein 8B-Modell oder ein 70B-Modell in Quantisierung), ollama run <modell> öffnet den ersten interaktiven Prompt zum Testen.
  5. API prüfen: Ollama stellt einen OpenAI-kompatiblen Endpunkt auf Port 11434 bereit. Teste ihn zuerst lokal mit einem curl-Request, bevor du ihn nach außen öffnest.
  6. Reverse Proxy und TLS einrichten: Setze Nginx oder Caddy davor, terminiere HTTPS mit einem Let's-Encrypt-Zertifikat und leite nur authentifizierte Anfragen an Port 11434 weiter.
  7. Zugriff absichern: Binde Ollama an localhost, erzwinge im Proxy einen API-Token oder Basic-Auth und beschränke den Port per Firewall. Ein LLM-Endpunkt gehört niemals ungeschützt ins offene Internet.

Kosten: eigener Server vs. Cloud-API

Ob sich ein eigener Ollama-Server rechnet, hängt vom Volumen ab. Token-APIs sind bei geringem, sporadischem Verbrauch günstiger; ab konstanter Auslastung kippt die Rechnung zugunsten eines festen Monatspreises — und deine Prompts verlassen nie deinen Server. Den Break-even rechnet unser Ratgeber Self-hosted LLM vs. API im Detail durch.

Ollama-Server vs. Token-API
KriteriumEigener GPU-Server (Bthorio)Cloud-Token-API
AbrechnungFester MonatspreisPro Token / Anfrage
Kosten bei hoher LastKonstant, planbarSteigt linear mit dem Verbrauch
DatenschutzPrompts bleiben in der EUDaten gehen an den Anbieter
ModellwahlFrei (jedes offene Modell)Nur angebotene Modelle
LatenzKonstant, kein Cold-StartVariiert je nach Anbieterlast

Im laufenden Betrieb

Ist der Endpunkt abgesichert, geht es um den Alltag: Modelle aktuell halten, die Auslastung im Blick behalten und die Antwortzeiten stabil halten. Ollama lädt Modelle bei Bedarf und hält sie im VRAM; wer mehrere Modelle bereitstellt, sollte den Speicher besonders im Auge behalten.

  • Auslastung beobachten: GPU-Speicher und -Last regelmäßig mit nvidia-smi prüfen, um Engpässe früh zu erkennen.
  • Modelle pflegen: Neue Versionen gezielt nachladen und ungenutzte Modelle entfernen, um VRAM und Speicherplatz freizuhalten.
  • Kontextlänge dosieren: Sehr lange Kontexte kosten VRAM und Zeit — wähle sie so groß wie nötig, nicht so groß wie möglich.
  • Clients anbinden: Dank OpenAI-kompatibler API sprechen viele Tools den Endpunkt direkt an; hinterlege den API-Token zentral statt in jedem Client.
  • Neustart-Verhalten: Da Ollama als systemd-Dienst läuft, kommt der Endpunkt nach einem Reboot von selbst wieder hoch — teste das einmal bewusst.

Häufig gestellte Fragen