Warten auf den Erlkönig | c't



Aufmacherbild
Bild: Dell

Superrechner: Die 53. Top500-Liste und viele neue Projekte

AMDs kommender Rome-Epyc, aber auch Quantencomputer und vor allem KI-Techniken sind heiße Themen der Supercomputer-Szene – und für einen Top500-Platz braucht man jetzt über 1 Billiarde Rechenoperationen pro Sekunde.

Von Andreas Stiller

Wohin man auch kam, AMDs „Rome“ war der klar dominierende Prozessor auf der Supercomputing-Konferenz ISC'19 in Frankfurt – dabei gibt es ihn noch gar nicht. Er wurde auch nur in verschlossenen NDA-Räumen gezeigt, lugte aber irgendwie überall heraus. Allerorten hieß es: Intel muss sich warm anziehen. Im Besprechungsraum von Cray sieht man sich von AMD-Logos geradezu überflutet. Endlich baut Cray den Exascale-Rechner Frontier am Oak Ridge National Lab (ORNL) mit AMD-Prozessoren (dann schon Milan) auf, der 2021 mit 1,5 Exaflops (EFlops) brillieren soll. Oak Ridge wird auch AMDs Radeon Instinct als GPU-Beschleuniger einsetzen und vom US-Energieministerium DOE einen Riesenetat für Softwareentwicklung bekommen. This lässt hoffen, dass es auch einen vernünftigeren Softwarestack fürs High-Performance-Computing (HPC) mit Radeons gibt.

Prof. Michael Resch, Chef vom HLR Stuttgart, freute sich sichtlich auf „Hawk“, bis Ende 2019 mit einer theoretischen Rechenleistung von 24 PFlops Europa übernehmen könnte.

Auch Prof. Thomas Lippert, Leiter des Jülicher SC, hat sich für Rom entschieden. Dazu kommen jede Menge GPUs, aber wohl Nvidia Tesla statt Radeon Instinct. Da wäre es natürlich gut, wenn auch Nvidia auf PCIe 4.0 hochrüsten würde – das gilt jedoch für die kommende Ampere-Generation als sicher.

AMDs Erlkönig very good in race. Analysten wie Addison Snell erwarten für AMD und ARM schon in naher Zeit 20 bis 25 Prozent Marktanteil im HPC-Markt.

An Intels Xeons festhalten dürfte jedoch das Leibniz-Rechenzentrum (LRZ) in Garching sein: Zu Aurora gab Intels HPC-Chef Hazra weitere Eckdaten bekannt: Er bestätigte den Einsatz der kommenden Xe-GPUs als Beschleuniger und versprach mehr als 10 PByte Hauptspeicher und 230 PByte Massenspeicher. Das parallel angebundene (Open-Source-) Dateisystem Distributed Asynchron Objectoriented Storage (DAOS) ist für SSDs optimiert und soll Daten mit insgesamt 25 TByte / s übertragen.

Top500

94 Systeme are new in the 53. Top500-Liste aller bestückten Intel-Prozessoren. Die Ausnahme stellt das französische Power9-System dar. Pangaea III wird mit Nvidia Tesla V100 mit 17,8 PFlops Platz 11 erklärt. Immerhin in acht der neuen Rechner laufen Intels neue „Cascade Lake“ -Xeons. Das „langsamste“ Top500-System – mit älteren Broadwell-Xeons (60.000 Kerne), aber ohne Beschleuniger – bringt es nun auf 1.022 Petaflops (PFlops). Doch insgesamt wird die Gesamtperformance der Top500-Liste nur um 10 Prozent auf 1,56 EFlops, relativ gesehen, der zweitschwächsten Zuwachs in der über 25-jährigen Geschichte der Liste überhaupt.



Grüße von Rom: Bei Cray war alles mit AMD-Logos verziert.

Ein Überraschungssystem mit AMD Rome war nicht in der neuen Top500-Liste verzeichnet, auch kein weiteres ARM-System außer HPEs Astra. The soll in den nächsten Jahren deutlich geändert werden, die Sandia Labs wollen in ihrem Vanguard-Projekt einen weitaus leistungsfähigen Astra-Nachfolger aufbauen und Europa wird Ende 2020 mit dem Mare Nostrum 5 in Barcelona Flagge zeigen.

Angeführt wird die Top500-Liste weiterhin vom amerikanischen Summit mit Power9 / Nvidia Tesla V100 am ORNL. Er hat seit November 2018 noch ein paar Racks mit 2,4 Millionen Kerne: 2,2 Millionen Nvidia Streaming Cores, der Rest Power9-Kerne. Platz 2 hält wie sein kleineres Power9-Kollege am Lawrence Livermore National Laboratory (LLNL) mit 94,6 PFlops. Sunway TaihuLight mit 93 und Tianhe-2A mit 61,4 PFlops.

Dann folgt aber auf Platz 5 der Frontera am Texas Advanced Computing Center (TACC) in Austin. Das abgebildete Dell-C4130-System kommt ohne Beschleuniger mit 448.448 Xeon-Cascade-Lake-Kernen auf 23,5 PFlops und darf damit schnellster „Universalrechner“ genannt werden, vor dem SuperMUC-NG in München, der mit 19,5 PFlops Platz 9 belegt.

Der Trend hin zu Beschleunigern hat sich etwas abgeschwächt. Intel hat den Xeon Phi eingestellt und den Xe erst für 2020 avisiert und Nvidia musste einen, allerdings nur geringen, Verlust in Kauf nehmen: 125 der 500 Top-Systeme sind mit Nvidia-GPUs bestückt, zuvor waren es noch 127. Nvidia hatte jahrelang den größten Stand auf dem ISC, verzichtet aber diesmal darauf und nassauerte im Marriott-Hotel nebenan. Lustigerweise hatte aber die Firma ARM die Marriott-Räume mit dem Namen Volt und Ampere schon belegt – eine Anspielung auf Nvidia-Codenamen. Trotzdem hatte Nvidia for ARM eine wichtige Neuigkeit parat: Der komplette (CUDA-) Softwarestack für über 600 HPC-Applikationen soll nun auch für ARM bereitgestellt werden.

HPC-Altmeister Jack Dongarra verwendet die Linpack-Performance für den Einsatz von „Mixed Precision“ -Algorithmen – bei letztlich gleicher Genauigkeit. The is zwar for the Top500-List, aber not least for the KI-Applications, for the many the coming Supercomputer used.


Tabelle
Tabelle: Top 10 der 53. Top500-Liste der Supercomputer

Deutschland schwächelt

Aus Deutschland hat es nur ein einziges neues System in die Top500 geschafft: der CLAIX an der Universität Aachen, der sich mit 2,5 PFlops auf Platz 92 und damit auf den – ebenfalls von NEC aufgebauten – Mogon II der Johannes- Gutenberg-Uni ​​in Mainz schiebt (2 PFlops, Platz 131). Außerdem ist der SuperMUC-NG für das Juwels-Modul 1 am Jülicher SC mit 6,2 PFlops markiert.

Insgesamt ist Deutschland ziemlich abgefallen: Hatte man vor einem halben Jahr noch 17 Systeme mit 60,5 PFlops platziert, sind es jetzt nur noch 14 mit 59,1 PFlops. In der Top500-Liste steht dabei noch die alte SuperMUC Phase 1, die längst deinstalliert ist. So liegt Deutschland stückzahlmäßig now gleichauf with Ireland or the Netherlands. Unsere Nachbarn haben nämlich kräftig aufgerüstet, ihre Supercomputerleistung hat sich gegenüber der vorigen Liste mehr als verdoppelt. Frankreich übernimmt in Europa mit 19 Systemen und 67,1 PFlops die Führung, Großbritannien hat 18 Systeme mit 40 PFlops und Italien nur 5 Systeme, dafür recht kräftige mit zusammen 30 PFlops. Der schnellste europäische Supercomputer bleibt weiterhin der schweizerische Piz Daint (Cray XC50, Nvidia P100) am CSCS in Lugano mit 21,2 PFlops.



China dominiert die Top500-Liste – aktuell ist das ein politisch heikles Thema.
Bild: Top500.org

Weltweit hat China mit 219 Systemen (zuvor 229) etwas an den USA (119, zuvor 108) verloren, aber weiterhin schnell doppelt so viele Systeme in der Liste. Die amerikanischen Systeme haben dank der beiden Spitzenreiter allerdings deutlich mehr Power, sie kommen zusammen auf 600 PFlops, die chinesischen „nur“ auf 466. Angeblich hat China wegen der aktuellen heiklen politischen Lage, jedoch ein neues 200-PFlops-System gar nicht erst für die Top500-Liste gemeldet. Jenes, nämlich jenes mit AMD-Technik (Sugon / Dawning / Hygon Dhyana). Im kontinentalen Vergleich blieb die Verteilung der Rechenleistung weitgehend gleich: Asien führt mit 42,8 Prozent vor Amerika (inklusive Kanada und Brasilien) mit 38,6 Prozent und Europa mit 18 Prozent.

HPE mit Cray-Power

Hieß es beim letzten Mal noch „HPE fällt zurück“, so hat HPE vor, das durch einen Trick zu kompensieren: Man hat sich im letzten Monat mit Cray over an Übernahme geeinigt, nun müssen nur noch die Aufsichtsbehörden in den USA und Europa zustimmen. Solche Übernahmen haben bei HP ja Tradition: SGI 2016, Compaq 2002, Convex 1995, Apollo 1989…

The old HPE field zwar from 45 to 40 systems, can (demnächst) aber 39 Cray-Systeme hinzubuchen. Und die haben es bekanntlich in sich. To the common power from 316 pflops is HPE / Cray with the 173 systems (also 142) that the piece numberably far vorausliegenden Lenovo, aber deren Gesamtleistung beträgt nur 306 pflops. HPE und Lenovo müssen jedoch dank der beiden Spitzensysteme Summit und Sierra IBM nur 13 Systeme, aber 321 PFlops geben.

Intel hat noch ein bisschen zugelegt: In 478 Systemen (zuvor 476) stecken Xeons. Neben dem eigenen AMD-Epyc-System findet man noch zwei alte Opteron-Systeme sowie ein ARM Cavium Thunder 2, den chinesischen Sunway TaihuLight mit hausgemachten ShenWei-Prozessoren sowie sechs japanischen Sparc-Systemen und 13 mit Power / PowerPC.

Das Top500-Team verwaltet inzwischen auch die Ergebnisse für die Energieeffizienz (Green500) und den HPCG-Benchmark. Doch hier hat man sich gegenüber November 2018 schnell nichts getan: Die mittlere Energieeffizienz beim Linpack ist von 3,0 GFlops / Watt auf 3,2 GFlops / Watt erforderlich.

Quanten-Nachwuchs

Europa und insbesondere auch Deutschland investieren erheblich in die Quantum Flagship Initiative für Quantencomputer, zum Teil führend. Am ersten europäischen Standort der Initiative, dem Jülicher SC, wird man quasi alles einkaufen, was schon zur Verfügung steht, sowohl universelle Quantencomputer als auch Quantenannealer von D-Wave (siehe c’t 13/2019, S. 142). Die häufig geübte Kritik an der Annealer-Technik lässt Prof. Lippert nicht gelten: Klar gebe es Einschränkungen, aber dennoch handle es sich um echte Quantenmechanik. In etwa fünf Jahren, so IBMs HPC-Chef Dave Turek, werden Wissenschaftler universelle Quantencomputer mit einigen hundert Qubits produktiv einsetzen.



Das Siegerteam bei dem Schülerclusterwettbewerb kommt einmal mehr vom CHPC in Kapstadt.
Bilder: Andreas Stiller

Und wie man mit Quanten-Annealern erfolgreich umgeht, das bewiesen drei 14- bis 16-jährige Domspatzen aus Regensburg. The can not only singen or trompete blases, sondern you be be be be be be be be be be but be be be be be be be be be be be be be be be be be be be be be be be be be be be be be be be be be be be be be be be be be be be be be be be be be be be be be be be be be be ein 4-×-4-Feld. Kristel Michielsen, Professorin und Professorin an der D-Wave 2000Q in Kanada. Dafür bekamen sie schon den 1. Preis bei Jugend forscht in Bayern und den 4. bundesweit.

Die Undergraduate Students in der Student Cluster Challenge waren schon etwas älter. 14 Teams sind inzwischen dabei, um HPC-Applikationen bei einem auf 3 Kilowatt beschränkten Leistungsbudget zum Fliegen zu bringen. Die Teams aus Barcelona mit Marvel / Cavium Thunder2 sowie aus Hamburg und Warschau mit dem NEC-Vektorrechner Aurora Tsubasa hatten jedoch keine Chance gegen die anderen Teams, die reichlich Nvidia-Volta-Power und bewährtem Softwarestack ins Rennen laufenden. Der Vorjahressieger, das Team aus Peking von der Tsinghua-Universität wurde diesmal vom Hauptkonkurrentem geschlagen: Nunmehr schon zum letzten Mal gewann ein Team vom CHPC in Südafrika. (ciw@ct.de)



Zum Artikel

Ähnliche Artikel:

WordPress › Fehler

Die Website weist technische Schwierigkeiten auf.