Zasoby klastra

W klastrze wdrożony jest system kolejkowania zadań Slurm. Umożliwia on zarówno pracę z interaktywnymi sesjami jak i kolejkowanie zadań użytkowników.

Partycje

Węzły klastra podzielone są na partycje:

  1. cpu - domyślna, nieposiadające GPU, z CPU na poziomie x86-64-v3 (AVX2)
  2. gpu - zawierająca ogólnodostępne maszyny wyposażone w GPU z obsługą NVIDIA CUDA 12.4
  3. gpu_spot - zawierająca maszyny wyposażone w GPU do uruchamiania zadań przerywanych
  4. zaczynające się od gpu_csi - zawierająca maszyny dostępne tylko dla Centrum Sztucznej Inteligencji

Jedyne pierwsze trzy dostępne są dla wszystkich użytkowników klastra.

Dokładny opis zastosowania partycji znajduje się w sekcji kolejkowanie.

GPU

Dostępne typy GPU NVIDIA:

Liczba GPU w poniższej tabeli oznacza konfigurację węzła oraz zawartych w nich GPU. Przykładowo 6x1 oznacza 6 węzłów, każdy posiadający 1 GPU. W takiej konfiguracji użycie wielu GPU wymaga powiązania wielu węzłów jednocześnie i specjalnych zabiegów programistycznych. Dla węzłów fizycznie zawierających wiele GPU, na przykład 1x4 dla A100, użycie wielu GPU jednocześnie jest trywialne w obrębie danego węzła - wystarczy odpowiednia specyfikacja zadania.

Identyfikator GPU Model VRAM CUDA CC Liczba GPU Partycje
nvidia_geforce_rtx_4090 RTX 4090 24GB 8.9 6x1 gpu 6x1, gpu_spot
nvidia_geforce_rtx_3090 RTX 3090 24GB 8.6 1x2 + 2x1 gpu 2x1, gpu_csi 1x2, gpu_spot
nvidia_a100 A100 80GB 8.0 1x4 gpu_csi 1x4, gpu_spot
nvidia_l40s L40s 48GB 8.9 1x4 gpu_csi 1x4, gpu_spot

Limity GPU

Partycja gpu służy do uruchamiania zadań interaktywnych o czasie trwania maksymalnie 24h. Każdy użytkownik ograniczony jest do jednego zadania w tym trybie.

Do uruchamiania bardziej skomplikowanych obliczeń służy partycja gpu_spot w której maksymalny czas trwania zadania to 72h, ale zadania mogą być wywłaszczane.

Dokładny opis zastosowania partycji znajduje się w sekcji kolejkowanie.

Własności węzłów

  • x86-64-v3 - CPU x86-64-v3 (AVX2)
  • x86-64-v4 - CPU x86-64-v4 (AVX-512)
  • amx - CPU Advanced Matrix Extensions
  • cc8.0 - dostępne CUDA Compute Capability co najmniej 8.0
  • cc8.8 - dostępne CUDA Compute Capability co najmniej 8.6
  • cc8.9 - dostępne CUDA Compute Capability co najmniej 8.9
  • vram24g - dostępne co najmniej 24GB VRAM
  • vram48g - dostępne co najmniej 48GB VRAM
  • vram80g - dostępne co najmniej 80GB VRAM

Pozostałe parametry

Węzły z GPU różnią się także pozostałymi parametrami - liczbą wątków CPU oraz ilością RAM:

Węzeł Identyfikator GPU Model VRAM CUDA CC CPU RAM Liczba GPU Partycje
g1n[1-6] nvidia_geforce_rtx_4090 RTX 4090 24GB 8.9 14 50GB 6x1 gpu, gpu_spot
g2n1 nvidia_geforce_rtx_3090 RTX 3090 24GB 8.6 56 204GB 1x2 gpu_csi, gpu_spot
g3n1 nvidia_a100 A100 80GB 8.0 84 880GB 1x4 gpu_csi, gpu_spot
g4n[1-2] nvidia_geforce_rtx_3090 RTX 3090 24GB 8.6 14 50GB 2x1 gpu 2x1, gpu_spot
g5n1 nvidia_l40s L40s 48GB 8.9 112 880GB 1x4 gpu_csi, gpu_spot