TUHH > Servicebereiche > Rechenzentrum > Pools/Server > Harburger Linux Cluster

Harburger Linuxcluster (Hali)

Hardwarekonfiguration

Das Linuxcluster Hali besteht aus 21 Knoten der ersten Ausbaustufe Ende 2004, einer Erweiterung um 10 Knoten im Februar 2008 und um 2 Knoten im Oktober 2008. Insgesamt verfügt Hali über 33 Knoten mit 42 AMD Opteron 248 (Single Core, 2,2GHz, 1MB L2 Cache) und 36 AMD Opteron 2356 (Quad Core, 2,3GHz, 2MB L3 Cache).

Knoten AMD Opteron CPUs RAM Netzwerk Bemerkung
PBSpro
Cores Freq.
hali01 2× 1 2,2 GHz 4 GB Gigabit Login-Knoten
hali02
hali03 4× 4 2,3 GHz 128 GB Gigabit core = quad
mem_per_core=acht
hali05
hali17 2× 1 2,2 GHz 4 GB Gigabit
Infiniband
core = single
mem_per_core=zwei
. . .
hali25
hali26 2× 4 2,3 GHz 16 GB Gigabit core = quad
mem_per_core=zwei
hali27
hali28 2× 4 2,3 GHz 8 GB Gigabit core = quad
mem_per_core=eins
. . .
hali35
 

PBSPro: wichtiger Hinweis für Parallel-Jobs

Man muss bei der Ressourcenvergabe unterscheiden, wie man die Cores parallel nutzen möchte: MPI-parallel, mit gemeinsamem Hauptspeicher oder hybrid. Ein Beispiel für 8 Cores:
  • MPI-Job auf 8 Cores, beliebig im Cluster verteilt
    qsub -l select=8:ncpus=1 mpi_job
    
    und wenn es nur ein Knoten sein soll
    qsub -l select=8:ncpus=1 -l place=pack mpi_job
    

  • OpenMP-Job auf 8 Cores auf einem Knoten
    qsub -l select=1:ncpus=8 openmp_job
    
    Diese Schreibweise ist im Ergebnis mit der alten
    qsub -l ncpus=8 openmp_job
    
    identisch. Achtung: ein MPI-Job auf einem Knoten funktioniert so nicht, mpirun bekommt die Umgebung von PBSpro und startet nur einen Prozess, nicht acht!

  • Hybrider Job mit 4 MPI-Tasks. Jeweils 2 Cores müssen im selben Knoten sein, denn auf ihnen soll OpenMP-parallel gearbeitet werden
    qsub -l select=4:ncpus=2 hybrid_job
    
Auf SGI Altix ist die neue Schreibweise mit select auch richtig. Weitere Infos und Beispielskripte auf der PBSpro-Seite.

Software

Rechnerzugang

  • Benutzerkennung :
    • Die gemeinsame Zugangsberechtigung für alle Parallelrechner am RZ (SGI Altix, Linuxcluster Hali), wird mit dem Benutzerantrag (PDF, Webformular) beantragt: Compute-Server (parallel) ankreuzen.

  • Zugangsrechner
    • Auf den Vorrechnern hali01.rz.tu-harburg.de, hali02.rz.tu-harburg.de kann interaktiv gearbeitet werden, alle anderen Knoten sind über das Batchsystem erreichbar (Interaktive Batchjobs: qsub -I).
    • Einloggen nur über SSH (Linux: ssh username@hali01.rz.tu-harburg.de, Windows: z.B. mit putty), Datenübertragung mit scp oder sftp. Mehr zum Thema auf den RZ-Seiten zu ssh.

  • Homeverzeichnis
    • Das Homeverzeichnis wird vom Fileserver gemountet und ist auch auf SGI Altix und den RZ-Poolrechnern Homeverzeichnis,
    • Standardquotas: 2 GB Soft- und 3 GB Hardlimit (können bei Bedarf erhöht werden),
    • langsamer Speicher vor allem für wichtige Daten, die gesichert werden müssen.

  • Lokale Festplatten
    • Jeder Knoten hat eigene Festplatten. Im Pfad /usertemp findet jeder Nutzer einen persönlichen Bereich.
    • Der Pfad /usertemp lautet auf allen Knoten gleich, zeigt aber jeweils auf die lokale Festplatte. Jeder Knoten sieht nur seinen eigenen /usertemp-Bereich.
    • Daten im /usertemp-Bereich werden nicht im Backup gesichert und nach 14 Tagen Inaktivität gelöscht.
    • Als schneller Speicher für Arbeitsverzeichnisse.

  • Globale Festplatte /data (alt = /halitemp) für das Cluster
    • Der Pfad /halitemp ist auf allen Cluster-Knoten per NFS sichtbar.
    • Langsamer als lokales /usertemp, schneller als das Homeverzeichnis.
    • Daten im /data- (/halitemp)-Bereich werden nicht im Backup gesichert.
    • Lösch-Aktivitäten werden erst bei 80% Füllgrad gestartet und bei ca. 70% wieder gestoppt. Es sollen die ältesten Daten gelöscht werden.
    • Kompromiss zwischen Home (überall sichtbar, sicher, langsam, quotiert) und lokaler Festplatte (nur lokal sichtbar, schnell).

Statistiken zur Clusterauslastung

Ansprechpartner am Rechenzentrum

Liste der Ansprechpartner für die Compute-Server