GGUF Format Selection Guide¶

Choose the right quantization for your use case.

Quick Reference¶

Model Size	VRAM	Recommended Quant	Speed
1-3B	3-5 GB	Q4_K_M	~60 tok/s
7-8B	6-8 GB	Q4_K_M	~25 tok/s
70B (dual T4)	28 GB	IQ3_XS	~12 tok/s

Model < 8B?
├─ Yes → Q4_K_M (single T4)
└─ No → Is it 70B?
    ├─ Yes → IQ3_XS (dual T4)
    └─ No → Q4_K_M (dual T4)