Minulý týden jsme na NERSC představili superpočítač Perlmutter, systém nové generace, který si pravděpodobně zajistí místo #5 v žebříčku Top 500 nejvýkonnějších strojů světa. V tomto díle jsme vedli rozhovor o výpočtech a schopnostech, ale skutečná hvězda show je v křídlech úložiště.
S 35 petabajty bude tento systém největším celoflashovým úložným systémem, jaký jsme doposud viděli, ale rozsah je pouze jednou částí příběhu. Namísto použití jednoho ze souborových systémů prvního typu NVMe (například WekaIO nebo Vast Data) bude tým NERSC ve spojení se systémovými partnery Cray/HPE neustále posilovat Luster, aby splnil požadavky, které zahrnují více smíšených pracovních zátěží než předchozí systémy. s AI/ML stále více v mixu. To znamená, že Luster bude fungovat mimo své kořeny orientované na výkon šířky pásma a poskytne dostatečné IOP a zpracování metadat.
Zatím, s tímto souborovým systémem na podlaze, Glenn Lockwood, úložiště NERSC a architekt HPC, říká, že Luster si pobrukuje a využívá velké výhody všech flash s „dostatečně dobrým“ IOPS a výkonem metadat, ale vynikající pro vysoce- šířky pásma tak často v srdci HPC. Vysvětluje, že i když trávili čas vyhodnocováním souborových systémů orientovaných na flash, každý test ukázal na účinnost Lusteru as pomocí HPE/Cray a nového výzkumného centra Luster mohli zaplnit všechny mezery.
Při výběru Lockwood říká, že pomohlo, že to HPE/Cray nabízelo jako podporovanou možnost souborového systému, ale „v roce 2018 to byla správná otázka – proč dát Luster na tento zářivý nový NVMe? V rámci smlouvy pro Perlmutter jsme uzavřeli partnerství pro centrum excelence kolem Lusteru, abychom mohli plně využít NVMe, a to se vyplatilo, dnes je to na parketu a je to rychlé. Velmi rychle."
Pokud jde o dodavatele souborových systémů flash-first, nebyli testováni na nic blízkého Perlmutterovu měřítku, většina v té době měla pod opaskem pouze několik petabajtů, max. „Velmi málo all-flash, jeden jmenný prostor paralelních souborových systémů bylo nasazeno na 30 petabajtech. To a velké riziko u technologie, která byla rozšířena jen na několik málo lidí, byly součástí důvodu, proč jsme si vybrali Luster, spolu s vyhlídkou na integraci do složitého prostředí.“
Nejedná se o první vpád NERSC do světa flash na velkých superpočítačích, ale jejich vstupní bod byl spíše experimentální. Jeden ze superpočítačů Cori předchozí generace, NERSC, spolu s Los Alamos National Lab byly žhnoucí stezky pro burst buffer. Každý z nich měl více než petabajt vyrovnávací paměti pro všechny blesky, která jim umožnila otestovat koncept a požadavky na flash ve velkém měřítku. Navzdory všem řečem o tom, co by burst buffery mohly udělat pro výkon a efektivitu úložiště v posledních několika letech, byl funkční, ale ke skutečnému přínosu to od uživatelů vyžadovalo určité úsilí navíc.
„V letech, které následovaly po [instalaci burst buffer], jsme byli schopni vidět využití pro burst buffer, a přestože se ukázalo, že je rychlý a může umožnit novým vědeckým poznatkům pro některé uživatele, skutečnost, že je pomíjivá, znamenala, že uživatelé museli explicitně spravovat data dovnitř a ven. To představuje dostatečnou překážku, zejména proto, že souborový systém Luster pro tento stroj byl celý diskový a nevyžadoval přesun dat s každou úlohou.“ Lockwood dodává, že v té době si nemohli dovolit all-flash pro Cori, ale jak začalo plánování Perlmuttera, rovnice se rychle měnila.
Lockwood a tým pečlivě sledovali vyvíjející se náklady na flash v roce 2018, když plánovali stroj Perlmutter s Cray/HPE.
„Použili jsme nejlepší dostupné informace z odvětví o cenách komodit pro flash a sledovali jsme je čtvrtletně prostřednictvím vzestupů a pádů přechodu z 2D na 3D NAND a vytvořili dobrý pocit předpokládaných nákladů. Pak jsme si trochu zahráli. Sdíleli jsme riziko s HPE a dohodli jsme se, že stanovíme cenu za flash, kterou zaplatíme, na základě toho, co jsme si mysleli, že přinese rok 2020, a pokud bude vypnutý, znovu se vrátíme.“ Jak se ukázalo, měli s penězi pravdu a náklady na tento celoflashový systém nyní činí pouhých 10–15 % z celkové pořízení systému – přesně v souladu s historickými rozpisy nákladů na další velké stroje v NERSC, jako jsou Cori a Edison. .
„Výhodou je, že kapacita je nyní stejně velká, alespoň relativně, u Cori, která měla 30 PB disku, zatímco Perlmutter je 3-4X schopnější, ale má pouze 35 petabajtů flash, ale abychom si udělali pohodlí, vzali jsme Podívejte se na naši pracovní zátěž a zjistili jsme, že 30 petabajtů bylo dostačujících.“
Právě teď se tyto kompromisy od souborového systému (který je navržen s ohledem na NVMe oproti standardnějšímu paralelnímu) až po kapacitu a výkon zdají být zdravé. Lockwood říká, že je i nadále ohromen výkonem Lustre na celoflashovém systému – a je překvapen, že i mimo bránu zazpíval neoptimalizovaný zkušební provoz s Lusterem na blesku. Stále je však potřeba udělat dost práce, abychom z velké flashové investice NERSC vytěžili maximum.
„Software bude i nadále výzvou. Luster je optimalizován pro šířku pásma a vznikající zátěže jsou náročné na IOPS a metadata. Existují kompromisy v softwaru, který vytvořili tvůrci souborového systému jako první, ale také v Lusteru, aby získali maximální šířku pásma. Neexistuje způsob, jak získat tyto tři aspekty výkonu – šířku pásma, IOPS a metadata – bez velkého množství práce v softwaru na překonfigurování základního flash disku.“
PREV: Cortus doufá, že vloží brzký nárok na RISC-V HPC
NEXT: INTEL ZPOŽDUJE ČIPY SERVERU „SAPPHIRE RAPIDS“, POTVRZUJE MOŽNOST PAMĚTI HBM