GPU Server

Ollama Server mieten — dedizierte GPU für selbst gehostete LLMs

Name: Bthorio GPU Server für Ollama
Brand: Bthorio
Price: 399.00 EUR
Availability: InStock

Miete einen dedizierten GPU-Server für Ollama und selbst gehostete LLMs — eine ganze RTX 4090 oder RTX 5090 in Frankfurt, ohne Cold-Start, ohne Preemption und mit einem privaten, DSGVO-konformen Endpunkt. Fester Monatspreis statt Token-Abrechnung.

GPU-Server für Ollama anfragen

Ollama macht das Self-Hosting von LLMs kinderleicht — ein Befehl, und ein Modell läuft lokal. Der Haken: Ohne eigene GPU landest du schnell bei serverlosen Endpunkten mit Cold-Start, geteilten Cloud-GPUs mit Preemption oder Token-APIs, die deine Prompts an Dritte außerhalb der EU senden. Ein dedizierter GPU-Server dreht das um — dein Ollama läuft rund um die Uhr auf einer ganzen Karte, die nur dir gehört, hinter einem festen, privaten Endpunkt in Frankfurt.

Warum ein dedizierter Server statt Cloud-GPU?

Geteilte und stündliche Cloud-GPUs klingen günstig, bringen für einen Inferenz-Dienst aber drei Probleme mit: Der erste Request nach Leerlauf wartet auf den Cold-Start, Preemption kann laufende Sessions abwürgen, und die Abrechnung pro Stunde macht Kosten unplanbar. Bei Bthorio bekommst du stattdessen dediziertes Bare Metal — die GPU bleibt geladen, dein Modell bleibt im VRAM resident, und der Preis steht fest. Kein Warmlaufen, keine Unterbrechung, keine Überraschung auf der Rechnung.

Welches LLM passt in welchen VRAM?

Der entscheidende Faktor beim LLM-Hosting ist der verfügbare VRAM . Als grobe Faustregel braucht ein 4-bit-quantisiertes Modell etwa halb so viele Gigabyte VRAM, wie es Milliarden Parameter hat — plus Reserve für Kontext und KV-Cache. Die folgende Tabelle zeigt, welche gängigen Ollama-Modelle bequem auf eine 24-GB-RTX-4090 bzw. eine 32-GB-RTX-5090 passen.

Modell → VRAM-Fit für Ollama (Q4-Quantisierung, Richtwerte)
Modell	Parameter	Quantisierung	VRAM-Bedarf (ca.)	Passt auf
Llama 3.1 8B	8B	Q4_K_M	~6 GB	RTX 4090 & 5090
Mistral / Gemma 2 9B	7–9B	Q4_K_M	~6–7 GB	RTX 4090 & 5090
Qwen 2.5 14B	14B	Q4_K_M	~10 GB	RTX 4090 & 5090
Qwen 2.5 / Llama 3.3 32B	32B	Q4_K_M	~20 GB	RTX 4090 (knapp) & 5090
Mixtral 8x7B (MoE)	47B	Q4_K_M	~28 GB	RTX 5090
Llama 3.1 70B	70B	Q4_K_M	~40 GB+	Multi-GPU / Datacenter

Die Werte sind Richtwerte für die üblichen Q4-Quantisierungen inklusive etwas Kontext-Overhead; lange Kontextfenster und größere Batch-Größen erhöhen den Bedarf spürbar. Wer tiefer einsteigen will, findet im Ratgeber Welche GPU/VRAM für welches LLM? die Details zu Quantisierungsstufen und Speicherbedarf.

RTX 4090 oder RTX 5090 für Ollama?

Für die meisten Ollama-Setups — 7B- bis 14B-Modelle, ein einzelner bis wenige gleichzeitige Nutzer — ist die RTX 4090 mit 24 GB ab 399 €/Monat die wirtschaftlichste Wahl. Sobald du 30B-plus-Modelle ohne aggressive Quantisierung, längere Kontexte oder mehr parallelen Durchsatz brauchst, spielt die RTX 5090 mit 32 GB und Blackwell-Architektur ihre Stärken aus. Beide findest du auf unserer Übersicht dedizierte GPU-Server .

Privater Chat-Assistent für Team oder Kundschaft — kein Prompt verlässt die EU
RAG-Backend mit lokalen Embeddings und eigenem Vektorspeicher
Code-Assistent (z. B. via Continue.dev) über die OpenAI-kompatible Ollama-API
Batch-Verarbeitung: Zusammenfassen, Klassifizieren und Extrahieren großer Dokumentmengen

Fester Monatspreis statt Token-Kosten

Wer viele Tokens verarbeitet, zahlt bei kommerziellen APIs pro Anfrage — und die Summe skaliert mit der Nutzung. Ein eigener Server kostet dagegen jeden Monat gleich viel, egal wie viele Millionen Tokens durchlaufen. Bei Bthorio zahlst du netto 399 €/Monat für eine ganze RTX 4090 — unabhängig von Auslastung, Anzahl der Anfragen oder Tageszeit. Für dauerhaft ausgelastete Assistenten, Batch-Jobs oder RAG-Backends kippt die Rechnung schnell zugunsten des Self-Hostings, und deine Daten bleiben dabei komplett unter deiner Kontrolle.

In wenigen Minuten startklar

Du bekommst Root-Zugriff auf Bare Metal und wählst Betriebssystem, Treiber und CUDA -Version frei. Ollama ist mit einem einzigen Installationsbefehl eingerichtet; danach lädst du dein Modell und exponierst den Endpunkt hinter Reverse-Proxy, TLS und Authentifizierung. Eine ausführliche Schritt-für-Schritt-Anleitung findest du unter Anleitung: Ollama installieren .

Häufig gestellte Fragen

Kann ich die Ollama-API von außen erreichen?

Welche Modelle laufen mit Ollama auf einer RTX 4090?

Bleibt das Modell zwischen Anfragen im Speicher geladen?

Läuft neben Ollama auch vLLM oder TGI?

Sind meine Prompts wirklich privat?