Ollama-Server einrichten: eigene LLMs selbst hosten
Diese Anleitung zeigt Schritt für Schritt, wie du Ollama auf einem dedizierten GPU-Server einrichtest — vom NVIDIA-Treiber über das erste Modell bis zur abgesicherten API. Am Ende hast du einen privaten LLM-Endpunkt in Frankfurt, DSGVO-konform und ohne Token-Abrechnung.
Ollama-Server mietenOllama ist der schnellste Weg, ein lokales Large Language Model produktiv zu betreiben: Es bündelt Modell-Download, Quantisierung und eine OpenAI-kompatible API in einem einzigen Binary. Der Haken: Ohne GPU ist die Inferenz zäh. Ein dedizierter Server mit RTX 4090 oder RTX 5090 liefert die nötige Rechenleistung — ohne Preemption , zu festen monatlichen Kosten.
Voraussetzungen
Du brauchst Root-Zugriff auf einen Linux-Server (Ubuntu 22.04 oder 24.04 sind am unkompliziertesten), eine NVIDIA-GPU mit ausreichend VRAM für dein Zielmodell und idealerweise eine eigene Domain für das TLS-Zertifikat. Wie viel VRAM ein bestimmtes Modell belegt, klärt unser Ratgeber Welche GPU und wie viel VRAM für welches LLM? — als grobe Orientierung: 7B- bis 13B-Modelle laufen bequem auf 24 GB, für 70B brauchst du Quantisierung.
Ollama-Server einrichten — Schritt für Schritt
- Server bereitstellen: Miete einen GPU-Server für KI mit RTX 4090 oder 5090 und installiere ein aktuelles Ubuntu. Root-Zugriff ist Voraussetzung, damit du Treiber und Dienste frei einrichten kannst.
- NVIDIA-Treiber und CUDA installieren: Spiele den passenden NVIDIA-Treiber ein und prüfe mit dem Kommando nvidia-smi, dass die Karte erkannt wird. Ollama nutzt CUDA für die GPU-Beschleunigung; ohne funktionierenden Treiber fällt es auf die langsame CPU zurück.
- Ollama installieren: Das offizielle Installationsskript richtet das Binary und einen systemd-Dienst ein — danach startet Ollama automatisch beim Booten und läuft als Hintergrunddienst.
- Modell laden und starten: Mit ollama pull <modell> lädst du ein Modell herunter (etwa ein 8B-Modell oder ein 70B-Modell in Quantisierung), ollama run <modell> öffnet den ersten interaktiven Prompt zum Testen.
- API prüfen: Ollama stellt einen OpenAI-kompatiblen Endpunkt auf Port 11434 bereit. Teste ihn zuerst lokal mit einem curl-Request, bevor du ihn nach außen öffnest.
- Reverse Proxy und TLS einrichten: Setze Nginx oder Caddy davor, terminiere HTTPS mit einem Let's-Encrypt-Zertifikat und leite nur authentifizierte Anfragen an Port 11434 weiter.
- Zugriff absichern: Binde Ollama an localhost, erzwinge im Proxy einen API-Token oder Basic-Auth und beschränke den Port per Firewall. Ein LLM-Endpunkt gehört niemals ungeschützt ins offene Internet.
Kosten: eigener Server vs. Cloud-API
Ob sich ein eigener Ollama-Server rechnet, hängt vom Volumen ab. Token-APIs sind bei geringem, sporadischem Verbrauch günstiger; ab konstanter Auslastung kippt die Rechnung zugunsten eines festen Monatspreises — und deine Prompts verlassen nie deinen Server. Den Break-even rechnet unser Ratgeber Self-hosted LLM vs. API im Detail durch.
| Kriterium | Eigener GPU-Server (Bthorio) | Cloud-Token-API |
|---|---|---|
| Abrechnung | Fester Monatspreis | Pro Token / Anfrage |
| Kosten bei hoher Last | Konstant, planbar | Steigt linear mit dem Verbrauch |
| Datenschutz | Prompts bleiben in der EU | Daten gehen an den Anbieter |
| Modellwahl | Frei (jedes offene Modell) | Nur angebotene Modelle |
| Latenz | Konstant, kein Cold-Start | Variiert je nach Anbieterlast |
Im laufenden Betrieb
Ist der Endpunkt abgesichert, geht es um den Alltag: Modelle aktuell halten, die Auslastung im Blick behalten und die Antwortzeiten stabil halten. Ollama lädt Modelle bei Bedarf und hält sie im VRAM; wer mehrere Modelle bereitstellt, sollte den Speicher besonders im Auge behalten.
- Auslastung beobachten: GPU-Speicher und -Last regelmäßig mit nvidia-smi prüfen, um Engpässe früh zu erkennen.
- Modelle pflegen: Neue Versionen gezielt nachladen und ungenutzte Modelle entfernen, um VRAM und Speicherplatz freizuhalten.
- Kontextlänge dosieren: Sehr lange Kontexte kosten VRAM und Zeit — wähle sie so groß wie nötig, nicht so groß wie möglich.
- Clients anbinden: Dank OpenAI-kompatibler API sprechen viele Tools den Endpunkt direkt an; hinterlege den API-Token zentral statt in jedem Client.
- Neustart-Verhalten: Da Ollama als systemd-Dienst läuft, kommt der Endpunkt nach einem Reboot von selbst wieder hoch — teste das einmal bewusst.