Skip to content

Architecture Overview

llcuda v2.2.0 architecture for Kaggle dual T4.

System Architecture

┌─────────────────────────────────────────┐
│         llcuda v2.2.0 Stack            │
├─────────────────────────────────────────┤
│  Python API (llcuda.api.*)              │
│  ├─ client.py (OpenAI-compatible)      │
│  ├─ multigpu.py (Dual T4 config)       │
│  ├─ gguf.py (Quantization tools)       │
│  └─ nccl.py (PyTorch distributed)      │
├─────────────────────────────────────────┤
│  Server Manager (llcuda.server)         │
│  └─ Lifecycle management                │
├─────────────────────────────────────────┤
│  llama.cpp Server (C++/CUDA)            │
│  ├─ Build 7760 (commit 388ce82)        │
│  ├─ OpenAI API endpoints                │
│  └─ Native CUDA tensor-split            │
├─────────────────────────────────────────┤
│  CUDA 12.5 / cuBLAS                     │
│  ├─ FlashAttention kernels              │
│  ├─ Tensor Core optimization            │
│  └─ SM 7.5 (Turing)                     │
├─────────────────────────────────────────┤
│  Kaggle Dual T4 (30GB VRAM)             │
│  ├─ GPU 0: LLM Inference                │
│  └─ GPU 1: Graphistry/RAPIDS            │
└─────────────────────────────────────────┘

Key Components

  • Python APIs: High-level interfaces
  • Server Manager: Process lifecycle
  • llama.cpp: CUDA inference engine
  • Split-GPU: Dual GPU coordination

See: - Split-GPU Design - GPU0 - LLM - GPU1 - Graphistry