Tensor Split vs NCCL¶

Tensor Split: Run 70B model on dual T4
NCCL: Train model with DDP

Understanding multi-GPU approaches.

Tensor Split (llama.cpp)¶

What: Native CUDA layer distribution Used by: llama.cpp server Purpose: Inference parallelism

# llama.cpp uses tensor-split
config = ServerConfig(
    tensor_split="0.5,0.5",
    split_mode="layer",
)

flowchart LR
  A[Tensor Split] --> B[llama.cpp inference]
  C[NCCL] --> D[PyTorch distributed training]

What: Multi-GPU communication primitives Used by: PyTorch distributed training Purpose: Training parallelism

# PyTorch uses NCCL
import torch.distributed as dist
dist.init_process_group(backend="nccl")