Zasoby klastra
W klastrze wdrożony jest system kolejkowania zadań Slurm. Umożliwia on zarówno pracę z interaktywnymi sesjami jak i kolejkowanie zadań użytkowników.
Partycje
Węzły klastra podzielone są na partycje:
cpu
- domyślna, nieposiadające GPU, z CPU na poziomie x86-64-v3 (AVX2)gpu
- zawierająca ogólnodostępne maszyny wyposażone w GPU z obsługą NVIDIA CUDA 12.4gpu_spot
- zawierająca maszyny wyposażone w GPU do uruchamiania zadań przerywanych- zaczynające się od
gpu_csi
- zawierająca maszyny dostępne tylko dla Centrum Sztucznej Inteligencji
Jedyne pierwsze trzy dostępne są dla wszystkich użytkowników klastra.
Dokładny opis zastosowania partycji znajduje się w sekcji kolejkowanie.
GPU
Dostępne typy GPU NVIDIA:
Liczba GPU w poniższej tabeli oznacza konfigurację węzła oraz zawartych w nich GPU. Przykładowo 6x1 oznacza 6 węzłów, każdy posiadający 1 GPU. W takiej konfiguracji użycie wielu GPU wymaga powiązania wielu węzłów jednocześnie i specjalnych zabiegów programistycznych. Dla węzłów fizycznie zawierających wiele GPU, na przykład 1x4 dla A100, użycie wielu GPU jednocześnie jest trywialne w obrębie danego węzła - wystarczy odpowiednia specyfikacja zadania.
Identyfikator GPU | Model | VRAM | CUDA CC | Liczba GPU | Partycje |
---|---|---|---|---|---|
nvidia_geforce_rtx_4090 |
RTX 4090 | 24GB | 8.9 | 6x1 | gpu 6x1, gpu_spot |
nvidia_geforce_rtx_3090 |
RTX 3090 | 24GB | 8.6 | 1x2 + 2x1 | gpu 2x1, gpu_csi 1x2, gpu_spot |
nvidia_a100 |
A100 | 80GB | 8.0 | 1x4 | gpu_csi 1x4, gpu_spot |
nvidia_l40s |
L40s | 48GB | 8.9 | 1x4 | gpu_csi 1x4, gpu_spot |
Limity GPU
Partycja gpu
służy do uruchamiania zadań interaktywnych o czasie trwania maksymalnie 24h. Każdy użytkownik ograniczony jest do jednego zadania w tym trybie.
Do uruchamiania bardziej skomplikowanych obliczeń służy partycja gpu_spot
w której maksymalny czas trwania zadania to 72h, ale zadania mogą być wywłaszczane.
Dokładny opis zastosowania partycji znajduje się w sekcji kolejkowanie.
Własności węzłów
x86-64-v3
- CPU x86-64-v3 (AVX2)x86-64-v4
- CPU x86-64-v4 (AVX-512)amx
- CPU Advanced Matrix Extensionscc8.0
- dostępne CUDA Compute Capability co najmniej 8.0cc8.8
- dostępne CUDA Compute Capability co najmniej 8.6cc8.9
- dostępne CUDA Compute Capability co najmniej 8.9vram24g
- dostępne co najmniej 24GB VRAMvram48g
- dostępne co najmniej 48GB VRAMvram80g
- dostępne co najmniej 80GB VRAM
Pozostałe parametry
Węzły z GPU różnią się także pozostałymi parametrami - liczbą wątków CPU oraz ilością RAM:
Węzeł | Identyfikator GPU | Model | VRAM | CUDA CC | CPU | RAM | Liczba GPU | Partycje |
---|---|---|---|---|---|---|---|---|
g1n[1-6] |
nvidia_geforce_rtx_4090 |
RTX 4090 | 24GB | 8.9 | 14 | 50GB | 6x1 | gpu , gpu_spot |
g2n1 |
nvidia_geforce_rtx_3090 |
RTX 3090 | 24GB | 8.6 | 56 | 204GB | 1x2 | gpu_csi , gpu_spot |
g3n1 |
nvidia_a100 |
A100 | 80GB | 8.0 | 84 | 880GB | 1x4 | gpu_csi , gpu_spot |
g4n[1-2] |
nvidia_geforce_rtx_3090 |
RTX 3090 | 24GB | 8.6 | 14 | 50GB | 2x1 | gpu 2x1, gpu_spot |
g5n1 |
nvidia_l40s |
L40s | 48GB | 8.9 | 112 | 880GB | 1x4 | gpu_csi , gpu_spot |