Anleitung

Ollama-Server einrichten: eigene LLMs selbst hosten

Diese Anleitung zeigt Schritt für Schritt, wie du Ollama auf einem dedizierten GPU-Server einrichtest — vom NVIDIA-Treiber über das erste Modell bis zur abgesicherten API. Am Ende hast du einen privaten LLM-Endpunkt in Frankfurt, DSGVO-konform und ohne Token-Abrechnung.

Ollama-Server mieten

Ollama ist der schnellste Weg, ein lokales Large Language Model produktiv zu betreiben: Es bündelt Modell-Download, Quantisierung und eine OpenAI-kompatible API in einem einzigen Binary. Der Haken: Ohne GPU ist die Inferenz zäh. Ein dedizierter Server mit RTX 4090 oder RTX 5090 liefert die nötige Rechenleistung — ohne Preemption , zu festen monatlichen Kosten.

Voraussetzungen

Du brauchst Root-Zugriff auf einen Linux-Server (Ubuntu 22.04 oder 24.04 sind am unkompliziertesten), eine NVIDIA-GPU mit ausreichend VRAM für dein Zielmodell und idealerweise eine eigene Domain für das TLS-Zertifikat. Wie viel VRAM ein bestimmtes Modell belegt, klärt unser Ratgeber Welche GPU und wie viel VRAM für welches LLM? — als grobe Orientierung: 7B- bis 13B-Modelle laufen bequem auf 24 GB, für 70B brauchst du Quantisierung.

Ollama-Server einrichten — Schritt für Schritt

Server bereitstellen: Miete einen GPU-Server für KI mit RTX 4090 oder 5090 und installiere ein aktuelles Ubuntu. Root-Zugriff ist Voraussetzung, damit du Treiber und Dienste frei einrichten kannst.
NVIDIA-Treiber und CUDA installieren: Spiele den passenden NVIDIA-Treiber ein und prüfe mit dem Kommando nvidia-smi, dass die Karte erkannt wird. Ollama nutzt CUDA für die GPU-Beschleunigung; ohne funktionierenden Treiber fällt es auf die langsame CPU zurück.
Ollama installieren: Das offizielle Installationsskript richtet das Binary und einen systemd-Dienst ein — danach startet Ollama automatisch beim Booten und läuft als Hintergrunddienst.
Modell laden und starten: Mit ollama pull <modell> lädst du ein Modell herunter (etwa ein 8B-Modell oder ein 70B-Modell in Quantisierung), ollama run <modell> öffnet den ersten interaktiven Prompt zum Testen.
API prüfen: Ollama stellt einen OpenAI-kompatiblen Endpunkt auf Port 11434 bereit. Teste ihn zuerst lokal mit einem curl-Request, bevor du ihn nach außen öffnest.
Reverse Proxy und TLS einrichten: Setze Nginx oder Caddy davor, terminiere HTTPS mit einem Let's-Encrypt-Zertifikat und leite nur authentifizierte Anfragen an Port 11434 weiter.
Zugriff absichern: Binde Ollama an localhost, erzwinge im Proxy einen API-Token oder Basic-Auth und beschränke den Port per Firewall. Ein LLM-Endpunkt gehört niemals ungeschützt ins offene Internet.

Kosten: eigener Server vs. Cloud-API

Ob sich ein eigener Ollama-Server rechnet, hängt vom Volumen ab. Token-APIs sind bei geringem, sporadischem Verbrauch günstiger; ab konstanter Auslastung kippt die Rechnung zugunsten eines festen Monatspreises — und deine Prompts verlassen nie deinen Server. Den Break-even rechnet unser Ratgeber Self-hosted LLM vs. API im Detail durch.

Ollama-Server vs. Token-API
Kriterium	Eigener GPU-Server (Bthorio)	Cloud-Token-API
Abrechnung	Fester Monatspreis	Pro Token / Anfrage
Kosten bei hoher Last	Konstant, planbar	Steigt linear mit dem Verbrauch
Datenschutz	Prompts bleiben in der EU	Daten gehen an den Anbieter
Modellwahl	Frei (jedes offene Modell)	Nur angebotene Modelle
Latenz	Konstant, kein Cold-Start	Variiert je nach Anbieterlast

Im laufenden Betrieb

Ist der Endpunkt abgesichert, geht es um den Alltag: Modelle aktuell halten, die Auslastung im Blick behalten und die Antwortzeiten stabil halten. Ollama lädt Modelle bei Bedarf und hält sie im VRAM; wer mehrere Modelle bereitstellt, sollte den Speicher besonders im Auge behalten.

Auslastung beobachten: GPU-Speicher und -Last regelmäßig mit nvidia-smi prüfen, um Engpässe früh zu erkennen.
Modelle pflegen: Neue Versionen gezielt nachladen und ungenutzte Modelle entfernen, um VRAM und Speicherplatz freizuhalten.
Kontextlänge dosieren: Sehr lange Kontexte kosten VRAM und Zeit — wähle sie so groß wie nötig, nicht so groß wie möglich.
Clients anbinden: Dank OpenAI-kompatibler API sprechen viele Tools den Endpunkt direkt an; hinterlege den API-Token zentral statt in jedem Client.
Neustart-Verhalten: Da Ollama als systemd-Dienst läuft, kommt der Endpunkt nach einem Reboot von selbst wieder hoch — teste das einmal bewusst.

Häufig gestellte Fragen

Läuft Ollama auch ohne GPU?

Welches Modell soll ich mit Ollama zuerst starten?

Ist der Ollama-Endpunkt standardmäßig abgesichert?

Kann ich mehrere Modelle parallel betreiben?