Superpočítač Fugaku, založený na procesoru A64FX řízeném ramenem a vlastní tkanině Fujitsu Tofu-D, se architektonicky osvědčil v řadě HPC a rozsáhlých benchmarků AI a přitáhl značnou pozornost mezi superpočítačovou sadou.
Mezi instituce, které se zajímají o schopnosti A64X, patří National Science Foundation (NSF) v USA, která spolu s výzkumníky z Brookhaven National Lab, Stony Brook a University of Buffalo provedla vlastní podporu architektury. Testování A64X probíhalo na testovacím lůžku Ookami, které poskytuje bezplatný přístup výzkumníkům, kteří chtějí provozovat své vlastní benchmarky se specifickými aplikacemi a požadavky na škálovatelnost.
Zatímco softwarový balík plně architektury ještě není k dispozici od Fujitsu, ve svých testovacích cyklech výzkumníci dospěli k závěru, že mají „velmi pozitivní počáteční zkušenost s A64FX“ hned po vybalení – takže i bez všech optimalizací a snadné používejte kompletní sadu softwaru, která vám bude poskytnuta. „Zatím naplňuje očekávání, že většina takového softwaru může poskytovat skvělý výkon hned po vybalení. Relativní nevyspělost softwarového ekosystému SVE (upozorňujeme, že zatím nemáme zásobník Fujitsu) však ztěžuje zobecnění tohoto tvrzení.“
Testovací systém Ookami je založen na návrhu systému HPE Apollo 80 se 174 uzly A64FX (1,8 GHz, 32 GB HBM, 512 GB SSD) se souborovým systémem Luster umístěným těsně pod petabajtem ClusterStor s HDR 200 GB/s s několika dalšími dvěma -zásuvkové uzly pro srovnání GPU AMD (Řím), Intel (Skylake a Haswell) a Nvidia V100. Na straně softwaru tým nezaznamenal žádné problémy se spuštěním jejich obvyklého softwarového zásobníku HPC (CentOS 8, Bright Cluster Manager, SLURM).
Z širšího pohledu na software říkají: „Naším stálým vtipem je, že systém je „bez ARM“ (tj. „neškodný“) v tom, že standardní aplikace ve FORTRAN, C nebo C++ se jednoduše zkompilují a vyběhnou z krabice, jakmile byly vyřešeny světské problémy, jako jsou příznaky kompilátoru a cesty knihoven. Důvodem je standardní a kompletní linuxová distribuce, rozsáhlý výběr řetězců nástrojů vyhovujících standardům a rostoucí knihovna lineární algebry a vědeckých jader, stejně jako dostupnost mnoha implementací MPI (Cray, MVAPICH, OpenMPI), které jsou všechny optimalizované. pro A64FX a SVE.”
Dodávají, že trik je vše, co je třeba udělat, abyste získali vysoký výkon procesoru spolu s výběrem vhodných řetězců nástrojů. "První obavy zahrnovaly, že výkon InfiniBand bude horší kvůli hloubce potrubí instrukcí a architektuře mezipaměti - ty se ukázaly jako neopodstatněné."
Výsledky testování architektury nebyly jen přijatelné: Tým poznamenává, že u některých softwarů „je tento transformační výkon dostupný téměř ihned po vybalení – vektorizovaný kód MPI+OpenMP by se měl jednoduše zkompilovat a okamžitě dobře běžet, přičemž další výkon je možný od ladění."
Úplný seznam výsledků srovnávání naleznete zde.
Připomeňme, že se jedná o nedokončené výsledky, které jistě vypovídají mnohé o hodnotě systému založeného na A64FX. Mezi miniaplikace a aplikace patří SWIM na bázi Fortran/OpenMP pro předpověď počasí (dobré pro testování šířky pásma a výkonu mezipaměti), molekulární dynamika stand-by GROMACS (která naráží na některá softwarová omezení s Arm and Cray), XDMoD prostřednictvím cloudové instance a PENNANT, nestrukturovaná aplikace založená na mesh, která zpochybnila A64FX „kvůli nedostatku lokality a 256bajtové mezipaměti architektury“ a zároveň zdůraznila nedostatek hyperthreadingu.
Navzdory některým zádrhelům, často způsobeným problémy se softwarem a pamětí, „Špičková vektorová rychlost procesoru a špičková šířka pásma paměti jsou skutečně snadno dostupné pro kompilované kódy, které jsou dobře vektorizovány a věnují pozornost lokalizaci referencí paměti v rámci CMG. Toho lze snadno dosáhnout spuštěním čtyř vícevláknových MPI procesů na uzel, s jedním na CMG.“
„Mělo by se na něj nahlížet jako na ‚vůdčí procesor‘, který vyměňuje vysoký výkon a vysokou energetickou účinnost u velké třídy dobře vektorizovaných vědeckých aplikací za snížený výkon (zejména pokud nejsou vektorizovány) a sníženou použitelnost (především kvůli kapacitě paměti ) na obecnějších kódech.“
PREV: Google provádí serverovou matematiku s instancemi Tau Cloud
NEXT: INTEL BRACES PRO HIT DPU, OČEKÁVÁ JEVONOVU PARADOXNÍ ODKAZ