Ratgeber

RTX 4090 vs. RTX 5090 für KI — lohnt sich das Upgrade?

Q: Lohnt sich die RTX 5090 für LLM-Inferenz?

Nur, wenn dein Modell die zusätzlichen 8 GB VRAM oder den höheren Blackwell-Durchsatz tatsächlich nutzt. Passt dein Modell bereits komfortabel in die 24 GB der 4090, ist der Zugewinn oft klein gegenüber dem rund dreifachen Preis.

Q: Reichen die 24 GB VRAM der 4090 für die meisten Modelle?

Für 7B- und 13B-Modelle sowie viele bis ~30B in 4-Bit-Quantisierung: ja. Erst bei größeren Modellen mit wenig Quantisierung oder sehr langen Kontexten stößt die 4090 an ihre Grenze.

Q: Was bringt FP4 auf der Blackwell-5090?

FP4 ist ein noch kompakteres Zahlenformat als FP8. Es kann Durchsatz und effektive Modellkapazität erhöhen — vorausgesetzt, dein Framework und Modell unterstützen es. Der Nutzen ist workload-abhängig, kein pauschaler Faktor.

Q: Ist die 5090 dreimal so schnell wie die 4090?

Nein. Der Preis ist bei uns etwa dreimal so hoch, die reine Rechenleistung skaliert aber nicht dreifach. Der Mehrwert der 5090 liegt vor allem in mehr VRAM und Bandbreite, nicht in einem linearen Speed-Faktor.

RTX 4090 oder RTX 5090 für KI-Workloads? Der eigentliche Sprung liegt beim VRAM (24 GB → 32 GB), in der Blackwell-Architektur und im FP8/FP4-Durchsatz. Dieser Ratgeber vergleicht beide Karten qualitativ — für LLM-Inferenz, Stable Diffusion und Fine-Tuning — und sagt dir ehrlich, wann die günstigere RTX 4090 völlig ausreicht und wann sich die RTX 5090 wirklich rechnet.

GPU-Server mieten

Vorweg, weil es Vertrauen schafft: Beide Karten sind GeForce-Consumer-GPUs, keine Datacenter-Beschleuniger wie A100 oder H100. Genau das macht sie für Einzel-GPU-Inferenz, Fine-Tuning und Bildgenerierung so wirtschaftlich. Die Frage ist selten „4090 oder H100", sondern fast immer „reichen mir 24 GB auf der 4090, oder brauche ich die 32 GB und den höheren Durchsatz der 5090?". Genau darum geht es hier.

Spec-Delta: Was sich von 4090 zu 5090 ändert

Der wichtigste Unterschied ist der Speicher: 24 GB GDDR6X auf der 4090 gegenüber 32 GB GDDR7 auf der 5090. Dazu kommt der Architektursprung von Ada Lovelace auf Blackwell — neue Tensor-Cores , die neben FP8 auch das noch kompaktere FP4-Format beschleunigen, sowie deutlich mehr Speicherbandbreite durch GDDR7.

Spec-Delta RTX 4090 vs. RTX 5090 (Bthorio-Konfiguration)
Merkmal	RTX 4090	RTX 5090
Architektur	Ada Lovelace	Blackwell
VRAM	24 GB GDDR6X	32 GB GDDR7
Speicherbandbreite	hoch	deutlich höher (GDDR7)
Tensor-Cores	4. Generation (FP8)	5. Generation (FP8 + FP4)
Low-Precision-Formate	FP8	FP8 und FP4
Typischer Einsatz	Inferenz, Fine-Tuning, Rendering	größere Modelle, höherer Durchsatz
Bthorio-Plattform	Ryzen 9 5950X · 128 GB DDR4	Intel i9-14900K · 96 GB DDR5
Preis bei Bthorio	399 €/Monat	1.200 €/Monat

LLM- und Stable-Diffusion-Durchsatz

Qualitativ gilt: Bei Modellen, die bereits komfortabel in 24 GB passen, ist die 5090 durch mehr Bandbreite und FP4-Beschleunigung schneller — aber selten dramatisch schneller, wenn der Workload nicht speicher- oder bandbreitenlimitiert ist. Der echte Vorteil zeigt sich dort, wo 24 GB knapp werden: größere Modelle ohne aggressive Quantisierung, längere Kontexte oder größere Batches. Dann macht die 5090 möglich, was die 4090 gar nicht erst laden kann. Bei Stable Diffusion und Flux profitieren große Auflösungen, viele parallele Bilder und Video-Modelle spürbar von den zusätzlichen 8 GB — für Einzelbilder in SDXL reicht die 4090 dagegen problemlos. Wie viel VRAM welches Modell braucht, rechnet unser Ratgeber Welche GPU/VRAM für welches LLM? konkret durch.

Kosten pro Token — die Intuition

Ein illustratives Gedankenexperiment (keine gemessene Benchmark): Bei Bthorio kostet die 4090 399 €/Monat, die 5090 rund 1.200 €/Monat — etwa der dreifache Preis. Damit die 5090 pro Token günstiger ist, müsste sie bei deinem konkreten Modell also grob mehr als dreimal so viele Token pro Sekunde liefern. Das tut sie bei rein bandbreitenlimitierter Inferenz in aller Regel nicht. Sinnvoll wird die 5090 stattdessen, wenn die 4090 ein Modell überhaupt nicht laden kann oder ständig auf CPU/Disk auslagern müsste — dann ist der Vergleich nicht „schneller", sondern „läuft überhaupt". Die genauen Verhältnisse hängen von Modell, Quantisierung und Batch-Größe ab; diese Rechnung ist illustrativ.

Dedizierte GPU-Server vergleichen

Wann die RTX 4090 völlig ausreicht

LLM-Inferenz bis ~30B Parameter in 4-Bit-Quantisierung — die RTX 4090 mit 24 GB trägt das souverän.
Fine-Tuning und LoRA-Training kleinerer Modelle mit planbarem Budget.
Stable Diffusion / SDXL / ComfyUI für Einzelbilder und moderate Batches.
Rendering, Video-Encoding und wissenschaftliches Rechnen ohne extreme VRAM-Anforderungen.

Fazit

Für die große Mehrheit der Einzel-GPU-Inferenz-, Fine-Tuning- und Bildgenerierungs-Aufgaben ist die RTX 4090 für 399 €/Monat die richtige Wahl — dediziert, zum Festpreis, ohne Preemption und DSGVO-konform in Frankfurt. Zur RTX 5090 greifst du gezielt, wenn du die 32 GB VRAM oder den Blackwell-Durchsatz wirklich brauchst. Unsicher? Beide Karten mietest du bei uns dediziert — sag uns deinen Workload, und wir empfehlen ehrlich statt teuer.

Häufig gestellte Fragen

Lohnt sich die RTX 5090 für LLM-Inferenz?

Reichen die 24 GB VRAM der 4090 für die meisten Modelle?

Was bringt FP4 auf der Blackwell-5090?

Ist die 5090 dreimal so schnell wie die 4090?