Linuxcluster Bombus
Hardwarekonfiguration
Das HPC-Cluster Bombus am Rechenzentrum besteht aus 281 Rechenknoten, fünf Loginknoten sowie einem parallelem Storage-System mit 240TB Speicherplatz. Insgesamt stehen für rechenintensive Anwendungen 6600 CPU-Cores, einigen GPUs und rund 32TB RAM zur Verfügung.
Die Rechenknoten sind in drei Partitionen eingeteilt. Jeder Batchjob muss vom Nutzer einer Partition zugewiesen werden.
Partitionsname | Anwendungsbereich |
---|---|
ether | Mit Gigabit-Ethernet vernetzte Rechenknoten für SMP-Rechnungen |
ib | Mit FDR-Infiniband vernetzte Rechenknoten für MPP-Rechnungen |
gpu | Mit GPUs ausgestattete Rechenknoten für Rechnungen auf GPUs |
Loginknoten
Knoten | Cores | CPU Typ | RAM | Bemerkung |
---|---|---|---|---|
apis.rz.tu-harburg.de | 2× 4 | 2× X5560 | 24 GB | |
bombus.rz.tu-harburg.de | 1× 8 | 2× E5-2470 | 48 GB | |
hali01.rz.tu-harburg.de | 1 | (virtuell) | 4 GB | |
hpc4.rz.tu-harburg.de | 2× 10 | 2× E5-2660v3 | 128 GB | |
hpc5.rz.tu-harburg.de | 2× 10 | 2× E5-2660v3 | 128 GB |
Knoten | Cores | CPU Typ | RAM | Partition | Bemerkung |
---|---|---|---|---|---|
n[037-038] | 4× 4 | 4× AMD 248 | 128 GB | ether | |
d[001-016] | 2× 6 | 2× X5675 | 72 GB | ether | |
d[017-044] | 2× 8 | 2× E5-2670 | 64 GB | ether | |
d[045-048] | 2× 10 | 2× E5-2670v2 | 64 GB | ether | |
g[001-016,033-048,073-086] | 2× 12 | 2× E5-2680v3 | 128 GB | ib | |
g[017-032,049-064,067-072] | 2× 12 | 2× E5-2680v3 | 256 GB | ib | |
g[065-066] | 2× 12 | 2× E5-2680v3 | 384 GB | ib | |
g[087-216] | 2× 14 | 2× E5-2680v4 | 128 GB | ib | |
g[217-224] | 2× 16 | 2× Xeon Gold 6130 | 192 GB | ib | |
u[001-002] | 2× 8 | 2× E5-2650v2 | 64 GB | gpu | Mit je zwei NVidia Tesla K20m |
u003 | 2× 6 | 2× E5-2620v3 | 64 GB | gpu | Mit logisch vier NVidia Tesla K80 |
u[004-006] | 2× 8 | 2× E5-2620v4 | 128 GB | gpu_m8 | Mit logisch acht NVidia Tesla K80 |
u007 | 2× 26 | 2× Xeon Gold 6230R | 384 GB | gpu_e | Mit vier NVidia Tesla V100 |
Software
- Betriebssystem RedHat Enterprise Linux (RHEL) / CentOS 7
- Batchsystem SLURM
- Softwareverwaltung mit dem Module-Konzept.
Rechnerzugang
- Benutzerkennung :
- Die Zugangsberechtigung für das HPC-Cluster am Rechenzentrum wird mit dem Benutzerantrag (PDF) beantragt, dabei ist HPC anzukreuzen.
- Zugangsrechner
- Einloggen nur über SSH (Linux: ssh username@bombus.rz.tu-harburg.de, Windows: z.B. mit putty). Datenübertragung mit scp oder sftp (Windows: z.B. mit WinSCP).
- Die Login-Knoten sind nur innerhalb des TU-Netzes erreichbar. Nutzer von außerhalb müssen den VPN-Service oder den SSH-Server des Rechenzentrums nutzen.
- Auf den Loginknoten kann interaktiv gearbeitet werden (Pre- und Postprocessing, Software übersetzen), die Rechenknoten sind über das Batchsystem erreichbar.
Storage
- Homeverzeichnis
- Das Homeverzeichnis wird vom zentralen Fileserver der TUHH gemountet und ist auch auf den RZ-Poolrechnern verfügbar. Für das Homeverzeichnis steht ein Backup und Snapshots zur Verfügung.
- Standardquotas: 2 GB Soft- und 3 GB Hardlimit (können bei Bedarf erhöht werden).
- Langsamer Speicher für wichtige Daten, die gesichert werden müssen.
- Lokale Festplatten
- Jeder Knoten hat eigene Festplatten. Unterhalb des Pfades /usertemp findet jeder Nutzer sein persönliches Verzeichnis /usertemp/<gruppenbezeichnung>/<benutzerkennung>, z.B. /usertemp/rzt/rztkm.
- Der Pfad /usertemp lautet auf allen Knoten gleich, zeigt aber jeweils auf die lokale Festplatte. Jeder Knoten sieht nur seinen eigenen /usertemp-Bereich.
- Daten im /usertemp-Bereich werden nicht im Backup gesichert und werden nach 14 Tagen Inaktivität sowie nach einem Reboot des Knotens gelöscht.
- Als schneller Speicher für Arbeitsverzeichnisse.
- Ein Remote-Zugriff auf die lokalen Festplatten der Rechenknoten ist aus dem Dateisystem der Login-Knoten möglich. Die lokalen Festplatten werden bei Bedarf gemountet
unterhalb von /remut, z.B. für den Knoten g001:
ls -l /remut/g001
- paralleles BeeGFS-Netzwerkdateisystem
- Das HPC-Cluster verfügt über ein Storage-System, auf das die Login- und Rechenknoten über das parallele Dateisystem BeeGFS zugreifen.
- Unterhalb von /work findet jeder Nutzer sein persönliches Verzeichnis /work/<gruppenbezeichnung>/<benutzerkennung> , z.B. /work/rzt/rztkm.
- Das parallele Dateisystem ist für temporäre Daten während der Simulation gedacht. Bei Speicherknappheit werden Daten älter als 90 Tage automatisch vom System gelöscht.
- Standardquota: 1TB, Quotastand kann abgefragt werden mit fhgfs-ctl --getquota --uid `id -u` .
- Sichtbar im gesamten Cluster.
- Kompromiss zwischen dem Homeverzeichnis (überall sichtbar, sicher, langsam, quotiert) und lokaler Festplatte (nur lokal sichtbar, schnell).
- Dieser Bereich verfügt über kein Backup - keine dauerhafte Speicherung wichtiger Daten !