Welche GPU & wie viel VRAM für dein LLM?
Wie viel VRAM braucht ein LLM wirklich — und passt Llama 70B auf eine einzelne GPU? Dieser Ratgeber zeigt den VRAM-Bedarf von 7B- bis 70B-Modellen bei FP16 und 4-Bit-Quantisierung, erklärt Quantisierung verständlich und sagt dir konkret, was auf eine RTX 4090 (24 GB) oder RTX 5090 (32 GB) passt.
GPU-Server mietenDie grobe Regel ist einfach: VRAM-Bedarf ≈ Parameterzahl × Bytes pro Parameter. In FP16 sind das 2 Bytes pro Parameter, in 8-Bit 1 Byte, in 4-Bit rund 0,5 Byte. Ein 7B-Modell braucht in FP16 also etwa 14 GB nur für die Gewichte. Dazu kommt Overhead — dazu unten mehr. Diese Tabelle gibt dir die Größenordnung, damit du die richtige GPU wählst, bevor du das Modell überhaupt herunterlädst.
VRAM-Bedarf nach Modellgröße
Die Werte sind Näherungen für die reinen Modellgewichte (keine gemessenen Benchmarks). Real kommen KV-Cache und Kontextlänge oben drauf — plane 15–25 % Puffer ein.
| Modell | FP16 (~2 Byte/Param) | 4-Bit (~0,5 Byte/Param) | Passt auf 4090 (24 GB) | Passt auf 5090 (32 GB) |
|---|---|---|---|---|
| 7B | ~14 GB | ~5 GB | Ja (auch FP16) | Ja (auch FP16) |
| 13B | ~26 GB | ~8 GB | Nur 4-Bit | FP16 knapp · 4-Bit locker |
| 34B | ~68 GB | ~20 GB | Nur 4-Bit (knapp) | 4-Bit komfortabel |
| 70B | ~140 GB | ~40 GB | Nein | Nein (Multi-GPU/Offload) |
Quantisierung einfach erklärt
Quantisierung speichert die Gewichte mit weniger Bits pro Zahl. Statt 16 Bit (FP16) nutzt 4-Bit-Quantisierung nur rund ein Viertel des Speichers — ein 70B-Modell schrumpft so von ~140 GB auf ~40 GB. Der Qualitätsverlust ist bei modernen Verfahren wie Q4_K_M, AWQ oder GPTQ für die meisten Aufgaben klein und oft kaum spürbar. Praktisch lädst du solche Modelle mit Ollama , vLLM oder TGI im GGUF-, AWQ- oder GPTQ-Format. Für Inferenz ist 4-Bit meist der beste Kompromiss aus Qualität und VRAM-Bedarf; fürs Training bleibt höhere Präzision wichtig.
Passt das auf 4090 oder 5090?
- 7B & 13B: laufen auf der RTX 4090 (24 GB) problemlos — 13B allerdings quantisiert.
- 34B: in 4-Bit auf der 4090 knapp machbar, auf der RTX 5090 (32 GB) komfortabel.
- 70B: passt in praktikabler Quantisierung auf keine der beiden Karten allein — hier brauchst du Multi-GPU, CPU-Offload oder eine Datacenter-Alternative.
- Langer Kontext / großer Batch: kostet extra VRAM — dann lieber eine Stufe größer wählen.
Faustregel zum Merken
VRAM (GB) ≈ Parameter (Mrd.) × Bytes pro Parameter + 15–25 % Overhead. Bytes pro Parameter: FP16 = 2, 8-Bit = 1, 4-Bit = 0,5. Rechne einmal grob nach, addiere den Puffer für KV-Cache und Kontext — und du weißt sofort, ob dein Modell auf 24 GB, 32 GB oder erst auf mehreren GPUs läuft. Unsicher bei deinem konkreten Modell? Sag uns Modell und Kontextlänge, und wir empfehlen dir die passende Karte.