Суперкомпютърът Fugaku, базиран на управлявания от Arm процесор A64FX и персонализиран Fujitsu Tofu-D плат, е доказал архитектурата си в редица HPC и широкомащабни AI бенчмаркове и привлече значително внимание сред набора от суперкомпютри.
Сред институциите, заинтересувани от възможностите на A64X, е Националната научна фондация (NSF) в САЩ, която, заедно с изследователи от Националната лаборатория Брукхейвън, Стоуни Брук и Университета на Бъфало, направи собствено проучване на архитектурата. Тестването на A64X се провежда в тестовия център Ookami, който дава безплатен достъп на изследователи, които искат да изпълнят свои собствени бенчмаркове със специфични приложения и изисквания за мащабируемост.
Въпреки че софтуерният стек на пълната архитектура все още не е достъпен от Fujitsu, в своите тестови изпълнения изследователите стигнаха до заключението, че са имали „много положителен първоначален опит с A64FX“ от кутията – така че дори без всички оптимизации и лекота на използвайте пълния софтуерен стек, който ще предоставите, след като бъде предоставен. „Засега отговаря на очакванията, че повечето от този софтуер могат да осигурят страхотна производителност още от кутията. Относителната незрялост на софтуерната екосистема на SVE обаче (отбелязвайки, че все още нямаме стека на Fujitsu) затруднява обобщаването на това твърдение.“
Системата за изпитване на Ookami е базирана на системния дизайн Apollo 80 на HPE със 174 възела A64FX (1,8 Ghz, 32 GB HBM, 512 GB SSD) с файлова система Luster, поместена в малко под петабайт ClusterStor с HDR 200 GB/s с някои допълнителни двойни -гнезда за сравняване на графични процесори AMD (Рим), Intel (Skylake и Haswell) и Nvidia V100. От страна на софтуера екипът не е имал проблеми с обичайния си HPC софтуерен стек (CentOS 8, Bright Cluster Manager, SLURM).
От по-широк софтуерен поглед те казват „Нашата постоянна шега е, че системата е „безвредна“ (т.е. „безобидна“) в това, че съвместимите със стандартите приложения във FORTRAN, C или C++ просто се компилират и изчерпват на кутията, след като бъдат разгледани обикновени проблеми като флагове на компилатор и пътеки на библиотеки. Това се дължи на стандартната и пълна дистрибуция на Linux, широкия избор от вериги инструменти, съвместими със стандарта, и нарастваща библиотека от линейна алгебра и научни ядра, както и наличието на множество реализации на MPI (Cray, MVAPICH, OpenMPI), всички оптимизирани за A64FX и SVE.“
Те добавят, че трикът е всичко, което трябва да се направи, за да се получи висока производителност от процесора, заедно с избора на подходящите вериги от инструменти. „Първите опасения включват, че производителността на InfiniBand ще бъде по-ниска поради дълбочината на конвейерите за инструкции и архитектурата на кеша – те се оказаха неоснователни.“
Резултатите от тестването на архитектурата не бяха просто приемливи: Екипът отбелязва, че за някои софтуери „тази трансформационна производителност е достъпна почти извадена от кутията — MPI+OpenMP векторизираният код трябва просто да се компилира и незабавно да работи добре, с възможна допълнителна производителност от настройка.”
Пълният набор от резултати от сравнителен анализ можете да намерите тук.
Припомнете си, че това са готови резултати, които със сигурност говорят много за стойността на система, базирана на A64FX. Мини-приложенията и приложенията включват базиран на Fortran/OpenMP SWIM за прогнозиране на времето (добър за тестване на честотната лента и производителността на кеша), GROMACS в режим на готовност за молекулярна динамика (които се справят с някои софтуерни ограничения с Arm and Cray), XDMoD чрез облачна инстанция и PENNANT, неструктурирано приложение, базирано на мрежа, което предизвика A64FX „поради липсата на локалност и 256-байтовата кеш линия на архитектурата“, като същевременно подчертава липсата на хипернишки.
Въпреки някои пропуски, често от проблеми със софтуера и паметта, „Върховата векторна скорост на процесора и пиковата честотна лента на паметта наистина са лесно достъпни за компилирани кодове, които са добре векторизирани и обръщат внимание на локализирането на препратките към паметта в CMG. Последното се постига лесно чрез изпълнение на четири многонишкови MPI процеса на възел, с по един на CMG.“
„Трябва да се разглежда като „лидерски процесор“, който търгува с висока производителност и висока енергийна ефективност на голям клас добре векторизирани научни приложения за намалена производителност (особено ако не е векторизирана) и намалена приложимост (главно поради капацитета на паметта ) на по-общи кодове.“
PREV: Google прави сървърната математика с Tau Cloud инстанции