Ratgeber

Welche GPU & wie viel VRAM für dein LLM?

Q: Passt Llama 70B auf eine RTX 4090 oder 5090?

Nicht in praktikabler Quantisierung auf einer einzelnen Karte: 70B braucht in 4-Bit rund 40 GB, mehr als die 24 GB der 4090 oder 32 GB der 5090. Dafür brauchst du Multi-GPU, CPU-Offload oder eine Datacenter-GPU — wir beraten ehrlich.

Q: Wie viel VRAM braucht ein 7B-Modell?

In FP16 rund 14 GB nur für die Gewichte, in 4-Bit-Quantisierung nur etwa 5 GB. Beides läuft bequem auf der RTX 4090 mit 24 GB — plus Puffer für Kontext und KV-Cache.

Q: Verliert ein Modell durch 4-Bit-Quantisierung viel Qualität?

Mit modernen Verfahren wie Q4_K_M, AWQ oder GPTQ ist der Qualitätsverlust für die meisten Aufgaben klein und oft kaum messbar — bei rund einem Viertel des VRAM-Bedarfs. Für sehr anspruchsvolle Aufgaben kann 8-Bit ein guter Mittelweg sein.

Q: Zählt nur der VRAM oder auch der System-RAM?

Für schnelle GPU-Inferenz zählt vor allem der VRAM. Mit CPU-Offloading kannst du Teile des Modells in den System-RAM auslagern — das erweitert die Kapazität, kostet aber deutlich Geschwindigkeit. Unsere GPU-Server bringen dafür 96–128 GB RAM mit.

Wie viel VRAM braucht ein LLM wirklich — und passt Llama 70B auf eine einzelne GPU? Dieser Ratgeber zeigt den VRAM-Bedarf von 7B- bis 70B-Modellen bei FP16 und 4-Bit-Quantisierung, erklärt Quantisierung verständlich und sagt dir konkret, was auf eine RTX 4090 (24 GB) oder RTX 5090 (32 GB) passt.

GPU-Server mieten

Die grobe Regel ist einfach: VRAM-Bedarf ≈ Parameterzahl × Bytes pro Parameter. In FP16 sind das 2 Bytes pro Parameter, in 8-Bit 1 Byte, in 4-Bit rund 0,5 Byte. Ein 7B-Modell braucht in FP16 also etwa 14 GB nur für die Gewichte. Dazu kommt Overhead — dazu unten mehr. Diese Tabelle gibt dir die Größenordnung, damit du die richtige GPU wählst, bevor du das Modell überhaupt herunterlädst.

VRAM-Bedarf nach Modellgröße

Die Werte sind Näherungen für die reinen Modellgewichte (keine gemessenen Benchmarks). Real kommen KV-Cache und Kontextlänge oben drauf — plane 15–25 % Puffer ein.

Ungefährer VRAM-Bedarf je Modell und Quantisierung (nur Gewichte)
Modell	FP16 (~2 Byte/Param)	4-Bit (~0,5 Byte/Param)	Passt auf 4090 (24 GB)	Passt auf 5090 (32 GB)
7B	~14 GB	~5 GB	Ja (auch FP16)	Ja (auch FP16)
13B	~26 GB	~8 GB	Nur 4-Bit	FP16 knapp · 4-Bit locker
34B	~68 GB	~20 GB	Nur 4-Bit (knapp)	4-Bit komfortabel
70B	~140 GB	~40 GB	Nein	Nein (Multi-GPU/Offload)

Quantisierung einfach erklärt

Quantisierung speichert die Gewichte mit weniger Bits pro Zahl. Statt 16 Bit (FP16) nutzt 4-Bit-Quantisierung nur rund ein Viertel des Speichers — ein 70B-Modell schrumpft so von ~140 GB auf ~40 GB. Der Qualitätsverlust ist bei modernen Verfahren wie Q4_K_M, AWQ oder GPTQ für die meisten Aufgaben klein und oft kaum spürbar. Praktisch lädst du solche Modelle mit Ollama , vLLM oder TGI im GGUF-, AWQ- oder GPTQ-Format. Für Inferenz ist 4-Bit meist der beste Kompromiss aus Qualität und VRAM-Bedarf; fürs Training bleibt höhere Präzision wichtig.

Passt das auf 4090 oder 5090?

7B & 13B: laufen auf der RTX 4090 (24 GB) problemlos — 13B allerdings quantisiert.
34B: in 4-Bit auf der 4090 knapp machbar, auf der RTX 5090 (32 GB) komfortabel.
70B: passt in praktikabler Quantisierung auf keine der beiden Karten allein — hier brauchst du Multi-GPU, CPU-Offload oder eine Datacenter-Alternative.
Langer Kontext / großer Batch: kostet extra VRAM — dann lieber eine Stufe größer wählen.

Passenden GPU-Server finden

Faustregel zum Merken

VRAM (GB) ≈ Parameter (Mrd.) × Bytes pro Parameter + 15–25 % Overhead. Bytes pro Parameter: FP16 = 2, 8-Bit = 1, 4-Bit = 0,5. Rechne einmal grob nach, addiere den Puffer für KV-Cache und Kontext — und du weißt sofort, ob dein Modell auf 24 GB, 32 GB oder erst auf mehreren GPUs läuft. Unsicher bei deinem konkreten Modell? Sag uns Modell und Kontextlänge, und wir empfehlen dir die passende Karte.

Häufig gestellte Fragen

Passt Llama 70B auf eine RTX 4090 oder 5090?

Wie viel VRAM braucht ein 7B-Modell?

Verliert ein Modell durch 4-Bit-Quantisierung viel Qualität?

Zählt nur der VRAM oder auch der System-RAM?