Malte Dreyer
Direktor Computer- und Medienservice
Daniel Rohde
Computer- und Medienservice, Digitale Infrastruktur und Betrieb
Mit HPC@HU startet der CMS der HU ein innovatives High-Performance-Computing-Angebot, um zentral und ressourcenschonend Hard- und Software für das Hochleistungsrechnen allen Forschenden und Lehrenden der HU leicht zugänglich zu machen.
Die HU will mit HPC@HU eine flexibles und direkt nutzbares Tier-3-HPC-Angebot schaffen, das den sehr unterschiedlichen Anforderungen aus den vielen Fachrichtungen der HU gerecht wird. HPC@HU geht diese Herausforderung mit einer virtualisierten Infrastruktur auf Basis der Open-Source-Software OpenStack und speziellen Komponenten wie Azimuth und Blazar an.
Hardware
Das HPC@HU-Anbebot startet mit 35 Compute-Knoten, von denen 30 mit GPUs und 1 TB RAM ausgestattet sind. Fünf Systeme sind statt mit GPUs mit mehr RAM (4 TB) sowie mit 128-Kern-CPUs von AMD ausgestattet.
Software
Wie in der Einleitung erwähnt, basiert die Virtualisierungslösung auf OpenStack, konkret auf dem Docker-Container-basierten Kolla-Stack. Das HPC@HU-Angebot umfasst neben der üblichen Horizon-Web-Oberfläche und APIs die Azimuth-Komponente für die Selbstbedienung.
Für die Administration setzt HPC@HU auf EESSI, die Europäische Umgebung für wissenschaftliche Softwareinstallationen (ausgesprochen „easy“). EESSI ist eine Zusammenarbeit zwischen verschiedenen europäischen HPC-Standorten und Industriepartnern mit dem Ziel, ein gemeinsames Repository für wissenschaftliche Softwareinstallationen einzurichten, das auf einer Vielzahl von Systemen verwendet werden kann, unabhängig davon, welche Linux-Distribution oder Prozessorarchitektur verwendet wird oder ob es sich um einen großen HPC-Cluster, eine Cloud-Umgebung oder eine persönliche Workstation handelt.
Plattform
Als Plattformen werden derzeit folgende direkt ausrollbare Umgebungen über Azimuth (siehe Abbildung 1) angeboten: Jupyter-HUB, Jupyter-Notebooks, Kubernetes-Cluster, SLURM, R-Studio und Linux-VMs. Es ist geplant, das Angebot je nach Bedarf zu erweitern.
Speicher
Zur Zwischenspeicherung von Prozessierungsdaten sind lokale SSD-Scratch-Bereiche auf allen Servern mit ca. 15,36 TB Kapazität sowie ein verteilter Scratch-Bereich von 1,5 PB über einen Lustre-Cluster vorgesehen. Zudem lassen sich die bekannten Dateidienste des CMS, wie die HU-Box, der Windows-Dateidienst, aber auch das NFS, aus dem virtualisierten Storage der HU (SAN) nutzen. Je nach Bedarf soll das Speicher-Angebot um einen CEPH-Objekt-Speicher erweitert werden.
Netzwerk
Alle 35 Compute-Knoten samt Controllern sind jeweils zweimal über 100 Gbit/s Ethernet verbunden und zwar sowohl auf der Compute-Ebene als auch auf Control-Plane.
Monitoring und Energieverbrauch
Zur Überwachung der Auslastung und der Server-Hardware wird das für OpenStack übliche zeitreihenbasierte Prometheus mit Grafana zur Visualisierung eingesetzt. Für die Überwachung der Log-Daten wird Elasticsearch in Verbindung mit Fluentd und Kibana genutzt. Die Hardware und der Energieverbrauch werden mit Prometheus zusammen mit Redfish überwacht.
Herausforderungen
Die Open-Source-Software OpenStack besteht aus einer Vielzahl von Komponenten. Die Installation, Konfiguration, der Betrieb und die Problembehebung sowie die Wartung sind sehr komplex und zeitaufwendig. Die Einführung der Lösung mit dem bestehenden Personal ist daher nicht zu bewältigen. Es sind zusätzliches Fachwissen und Ressourcen erforderlich, um OpenStack erfolgreich zu implementieren und zu verwalten. Entsprechend wurde mit StackHPC ein Implementationspartner gefunden, der neben der Installation auch den Betrieb durch regelmäßige Updates und Support unterstützt.
Ausblick
Im Augenblick können interessierte Tester:innen eigene Tenants zum Anlegen eigener Plattformen in Azimuth mit ausreichenden Ressourcen nutzen. Im Jahr 2024 soll HPC@HU in Betrieb gehen.