Ollama Server mieten — dedizierte GPU für selbst gehostete LLMs
Miete einen dedizierten GPU-Server für Ollama und selbst gehostete LLMs — eine ganze RTX 4090 oder RTX 5090 in Frankfurt, ohne Cold-Start, ohne Preemption und mit einem privaten, DSGVO-konformen Endpunkt. Fester Monatspreis statt Token-Abrechnung.
GPU-Server für Ollama anfragenOllama macht das Self-Hosting von LLMs kinderleicht — ein Befehl, und ein Modell läuft lokal. Der Haken: Ohne eigene GPU landest du schnell bei serverlosen Endpunkten mit Cold-Start, geteilten Cloud-GPUs mit Preemption oder Token-APIs, die deine Prompts an Dritte außerhalb der EU senden. Ein dedizierter GPU-Server dreht das um — dein Ollama läuft rund um die Uhr auf einer ganzen Karte, die nur dir gehört, hinter einem festen, privaten Endpunkt in Frankfurt.
Warum ein dedizierter Server statt Cloud-GPU?
Geteilte und stündliche Cloud-GPUs klingen günstig, bringen für einen Inferenz-Dienst aber drei Probleme mit: Der erste Request nach Leerlauf wartet auf den Cold-Start, Preemption kann laufende Sessions abwürgen, und die Abrechnung pro Stunde macht Kosten unplanbar. Bei Bthorio bekommst du stattdessen dediziertes Bare Metal — die GPU bleibt geladen, dein Modell bleibt im VRAM resident, und der Preis steht fest. Kein Warmlaufen, keine Unterbrechung, keine Überraschung auf der Rechnung.
Welches LLM passt in welchen VRAM?
Der entscheidende Faktor beim LLM-Hosting ist der verfügbare VRAM . Als grobe Faustregel braucht ein 4-bit-quantisiertes Modell etwa halb so viele Gigabyte VRAM, wie es Milliarden Parameter hat — plus Reserve für Kontext und KV-Cache. Die folgende Tabelle zeigt, welche gängigen Ollama-Modelle bequem auf eine 24-GB-RTX-4090 bzw. eine 32-GB-RTX-5090 passen.
| Modell | Parameter | Quantisierung | VRAM-Bedarf (ca.) | Passt auf |
|---|---|---|---|---|
| Llama 3.1 8B | 8B | Q4_K_M | ~6 GB | RTX 4090 & 5090 |
| Mistral / Gemma 2 9B | 7–9B | Q4_K_M | ~6–7 GB | RTX 4090 & 5090 |
| Qwen 2.5 14B | 14B | Q4_K_M | ~10 GB | RTX 4090 & 5090 |
| Qwen 2.5 / Llama 3.3 32B | 32B | Q4_K_M | ~20 GB | RTX 4090 (knapp) & 5090 |
| Mixtral 8x7B (MoE) | 47B | Q4_K_M | ~28 GB | RTX 5090 |
| Llama 3.1 70B | 70B | Q4_K_M | ~40 GB+ | Multi-GPU / Datacenter |
Die Werte sind Richtwerte für die üblichen Q4-Quantisierungen inklusive etwas Kontext-Overhead; lange Kontextfenster und größere Batch-Größen erhöhen den Bedarf spürbar. Wer tiefer einsteigen will, findet im Ratgeber Welche GPU/VRAM für welches LLM? die Details zu Quantisierungsstufen und Speicherbedarf.
RTX 4090 oder RTX 5090 für Ollama?
Für die meisten Ollama-Setups — 7B- bis 14B-Modelle, ein einzelner bis wenige gleichzeitige Nutzer — ist die RTX 4090 mit 24 GB ab 399 €/Monat die wirtschaftlichste Wahl. Sobald du 30B-plus-Modelle ohne aggressive Quantisierung, längere Kontexte oder mehr parallelen Durchsatz brauchst, spielt die RTX 5090 mit 32 GB und Blackwell-Architektur ihre Stärken aus. Beide findest du auf unserer Übersicht dedizierte GPU-Server .
- Privater Chat-Assistent für Team oder Kundschaft — kein Prompt verlässt die EU
- RAG-Backend mit lokalen Embeddings und eigenem Vektorspeicher
- Code-Assistent (z. B. via Continue.dev) über die OpenAI-kompatible Ollama-API
- Batch-Verarbeitung: Zusammenfassen, Klassifizieren und Extrahieren großer Dokumentmengen
Fester Monatspreis statt Token-Kosten
Wer viele Tokens verarbeitet, zahlt bei kommerziellen APIs pro Anfrage — und die Summe skaliert mit der Nutzung. Ein eigener Server kostet dagegen jeden Monat gleich viel, egal wie viele Millionen Tokens durchlaufen. Bei Bthorio zahlst du netto 399 €/Monat für eine ganze RTX 4090 — unabhängig von Auslastung, Anzahl der Anfragen oder Tageszeit. Für dauerhaft ausgelastete Assistenten, Batch-Jobs oder RAG-Backends kippt die Rechnung schnell zugunsten des Self-Hostings, und deine Daten bleiben dabei komplett unter deiner Kontrolle.
In wenigen Minuten startklar
Du bekommst Root-Zugriff auf Bare Metal und wählst Betriebssystem, Treiber und CUDA -Version frei. Ollama ist mit einem einzigen Installationsbefehl eingerichtet; danach lädst du dein Modell und exponierst den Endpunkt hinter Reverse-Proxy, TLS und Authentifizierung. Eine ausführliche Schritt-für-Schritt-Anleitung findest du unter Anleitung: Ollama installieren .