VRAM (Video Random Access Memory) ist der dedizierte Speicher auf einer Grafikkarte. Bei KI-Workloads bestimmt die VRAM-Größe, wie große Modelle geladen werden können: Ein LLM muss samt Gewichten und Kontext in den VRAM passen. Eine RTX 4090 hat 24 GB, eine RTX 5090 32 GB. Reicht der VRAM nicht, hilft Quantisierung (z. B. 4-bit) oder eine Karte mit mehr Speicher.