Harburger Linuxcluster (Hali)
Hardwarekonfiguration
Das Linuxcluster Hali besteht aus 21 Knoten der ersten Ausbaustufe Ende 2004, einer Erweiterung um 10 Knoten im Februar 2008 und um 2 Knoten im Oktober 2008. Insgesamt verfügt Hali über 33 Knoten mit 42 AMD Opteron 248 (Single Core, 2,2GHz, 1MB L2 Cache) und 36 AMD Opteron 2356 (Quad Core, 2,3GHz, 2MB L3 Cache).
| Knoten | AMD Opteron CPUs | RAM | Netzwerk | Bemerkung PBSpro |
|
|---|---|---|---|---|---|
| Cores | Freq. | ||||
| hali01 | 2× 1 | 2,2 GHz | 4 GB | Gigabit | Login-Knoten |
| hali02 | |||||
| hali03 | 4× 4 | 2,3 GHz | 128 GB | Gigabit | core = quad mem_per_core=acht |
| hali05 | |||||
| hali17 | 2× 1 | 2,2 GHz | 4 GB | Gigabit Infiniband |
core = single mem_per_core=zwei |
| . . . | |||||
| hali25 | |||||
| hali26 | 2× 4 | 2,3 GHz | 16 GB | Gigabit | core = quad mem_per_core=zwei |
| hali27 | |||||
| hali28 | 2× 4 | 2,3 GHz | 8 GB | Gigabit | core = quad mem_per_core=eins |
| . . . | |||||
| hali35 | |||||
PBSPro: wichtiger Hinweis für Parallel-Jobs
Man muss bei der Ressourcenvergabe unterscheiden, wie man die Cores parallel nutzen möchte: MPI-parallel, mit gemeinsamem Hauptspeicher oder hybrid. Ein Beispiel für 8 Cores:- MPI-Job auf 8 Cores, beliebig im Cluster verteilt
qsub -l select=8:ncpus=1 mpi_job
und wenn es nur ein Knoten sein sollqsub -l select=8:ncpus=1 -l place=pack mpi_job
- OpenMP-Job auf 8 Cores auf einem Knoten
qsub -l select=1:ncpus=8 openmp_job
Diese Schreibweise ist im Ergebnis mit der altenqsub -l ncpus=8 openmp_job
identisch. Achtung: ein MPI-Job auf einem Knoten funktioniert so nicht, mpirun bekommt die Umgebung von PBSpro und startet nur einen Prozess, nicht acht! - Hybrider Job mit 4 MPI-Tasks. Jeweils 2 Cores müssen im selben
Knoten sein, denn auf ihnen soll OpenMP-parallel gearbeitet werden
qsub -l select=4:ncpus=2 hybrid_job
Software
- Betriebssystem Red Hat Enterprise Linux 5,
- Batchsystem PBSpro,
- Compiler Intel, Portland Group, Gnu,
- MPI Intel MPI, OpenMP, MPICH2,
- Paralleler Debugger Allinea DDT,
- Anwendungssoftware siehe tabellarische Softwareliste,
- Softwareverwaltung mit dem Module-Konzept.
Rechnerzugang
- Benutzerkennung :
- Die gemeinsame Zugangsberechtigung für alle Parallelrechner am RZ (SGI Altix, Linuxcluster Hali), wird mit dem Benutzerantrag (PDF, Webformular) beantragt: Compute-Server (parallel) ankreuzen.
- Zugangsrechner
- Auf den Vorrechnern hali01.rz.tu-harburg.de, hali02.rz.tu-harburg.de kann interaktiv gearbeitet werden, alle anderen Knoten sind über das Batchsystem erreichbar (Interaktive Batchjobs: qsub -I).
- Einloggen nur über SSH (Linux: ssh
username@hali01.rz.tu-harburg.de, Windows: z.B. mit putty),
Datenübertragung
mit scp oder sftp. Mehr zum Thema auf den RZ-Seiten zu ssh.
- Homeverzeichnis
- Das Homeverzeichnis wird vom Fileserver gemountet und ist auch auf SGI Altix und den RZ-Poolrechnern Homeverzeichnis,
- Standardquotas: 2 GB Soft- und 3 GB Hardlimit (können bei Bedarf erhöht werden),
- langsamer Speicher vor allem für wichtige Daten, die gesichert werden müssen.
- Lokale Festplatten
- Jeder Knoten hat eigene Festplatten. Im Pfad /usertemp findet jeder Nutzer einen persönlichen Bereich.
- Der Pfad /usertemp lautet auf allen Knoten gleich, zeigt aber jeweils auf die lokale Festplatte. Jeder Knoten sieht nur seinen eigenen /usertemp-Bereich.
- Daten im /usertemp-Bereich werden nicht im Backup gesichert und nach 14 Tagen Inaktivität gelöscht.
- Als schneller Speicher für Arbeitsverzeichnisse.
- Globale Festplatte /data (alt = /halitemp) für das Cluster
- Der Pfad /halitemp ist auf allen Cluster-Knoten per NFS sichtbar.
- Langsamer als lokales /usertemp, schneller als das Homeverzeichnis.
- Daten im /data- (/halitemp)-Bereich werden nicht im Backup gesichert.
- Lösch-Aktivitäten werden erst bei 80% Füllgrad gestartet und bei ca. 70% wieder gestoppt. Es sollen die ältesten Daten gelöscht werden.
- Kompromiss zwischen Home (überall sichtbar, sicher, langsam, quotiert) und lokaler Festplatte (nur lokal sichtbar, schnell).
Statistiken zur Clusterauslastung
Ansprechpartner am Rechenzentrum
Liste der Ansprechpartner für die Compute-Server
