Миналата седмица представихме суперкомпютъра Perlmutter, системата от следващо поколение в NERSC, която вероятно ще осигури място №5 в списъка Топ 500 на най-мощните машини в света. В това парче продължихме разговора за изчисленията и възможностите, но истинската звезда на шоуто е в крилата за съхранение.
С 35 петабайта системата ще бъде най-голямата изцяло флаш система за съхранение, която сме виждали досега, но мащабът е само една част от историята. Вместо да използва една от първите NVMe файлови системи (WekaIO или Vast Data, например), екипът на NERSC, съвместно със системните партньори Cray/HPE, ще продължи да подобрява Luster, за да отговори на изискванията, които включват по-смесени натоварвания от предишните системи с AI/ML все повече в микса. Това означава да накарате Luster да работи извън своите корени, ориентирани към производителността на честотната лента, и да осигури достатъчно IOP и обработка на метаданни.
Досега, с тази файлова система на пода, Глен Локууд, NERSC съхранение и HPC архитект, казва, че Luster си тананика и се възползва страхотно от всички флаш с „достатъчно добри“ IOPS и производителност на метаданни, но изключителни за високотехнологичните честотна лента работят толкова често в сърцето на HPC. Той обяснява, че въпреки че са прекарали време в оценка на флаш-ориентирани файлови системи, всеки тест сочеше ефикасността на Luster и с помощта на HPE/Cray и нов изследователски център Luster те можеха да запълнят всички пропуски.
При избора Локууд казва, че е помогнало, че HPE/Cray го е предложил като опция за поддържана файлова система, но „през 2018 г. това беше справедлив въпрос – защо да поставим Luster на този лъскав нов NVMe? Ние си партнирахме като част от договора за Perlmutter за център за високи постижения около Luster, за да се възползваме напълно от NVMe и това се отплати, днес е на пода и е бързо. Наистина бързо."
Що се отнася до доставчиците на първите флаш файлови системи, те не бяха тествани в нищо близко до мащаба на Perlmutter, повечето в този момент имаха само няколко петабайта, максимум, под коланите си. „Много малко all-flash паралелни файлови системи с едно пространство на имена са внедрени на 30 петабайта. Това и поемането на голям риск за технология, която е достигнала само няколко, беше част от причината да изберем Luster заедно с перспективата за интегриране в сложна среда.“
Това не е първото нахлуване на NERSC в света на флаш на големи суперкомпютри, но тяхната входна точка беше по-експериментална. Един суперкомпютър Cori от предишното поколение, NERSC, заедно с Националната лаборатория в Лос Аламос прокарваха пътеки за буфера за избухване. Всеки имаше над един петабайт буфер за избухване на всички флаш памети, който им позволи да тестват концепцията и изискванията за флаш в мащаб. Въпреки всички разговори за това какво могат да направят буферите за избухване за производителността и ефективността на съхранението през последните няколко години, той беше функционален, но отне някои допълнителни усилия от потребителите за истинска полза.
„През годините след [тази инсталация на burst буфер] успяхме да видим употребата на burst буфера и въпреки че беше доказано бърз и можеше да позволи нова наука за определени потребители, фактът, че е ефимерен, означаваше, че потребителите трябва изрично управлявайте входни и изходящи данни. Това представлява достатъчна бариера, особено след като файловата система Luster за тази машина беше изцяло базирана на диск и не изискваше преместване на данни с всяко задание.“ Локууд добавя, че по онова време не са можели да си позволят изцяло флаш за Cori, но когато започна планирането за Perlmutter, уравнението се промени бързо.
Lockwood и екипът следяха стриктно променящите се разходи за флаш през 2018 г., докато планираха машината Perlmutter с Cray/HPE.
„Използвахме най-добрата информация за индустрията за наличност относно ценообразуването на стоките за флаш и проследихме това на тримесечна база през възходите и паденията на преминаването от 2D към 3D NAND и установихме добро усещане за прогнозираните разходи. След това направихме малко хазарт. Споделихме риска с HPE и се съгласихме да определим цена за флаш, която да платим въз основа на това, което смятахме, че ще донесе 2020 г., и ако не беше, ще го прегледаме отново.“ Както се оказа, те бяха прави с парите и цената на тази изцяло флаш система сега е само 10-15% от общото придобиване на системата - точно в съответствие с историческите разбивки на разходите за други големи машини в NERSC като Cori и Edison .
„Компромисът е, че капацитетът сега е толкова голям, поне сравнително, при Cori, който имаше 30PB диск, докато Perlmutter е 3-4 пъти по-способен, но има само 35 петабайта флаш, но за да се чувстваме комфортно, взехме преглед на нашите натоварвания и установи, че 30 петабайта са достатъчни.
В момента тези компромиси, от файловата система (такава, проектирана с NVMe в ума срещу по-стандартна паралелна такава) до капацитета и производителността изглеждат добри. Локууд казва, че продължава да бъде впечатлен от представянето на Lustre върху изцяло флаш системата – и е изненадан, че дори и извън портата е пуснат неоптимизиран тест с Lustre на флаш. Но има още доста работа за вършене, за да извлечете максимума от голямата флаш инвестиция на NERSC.
„Софтуерът ще продължи да бъде предизвикателството. Lustre е оптимизиран за честотна лента и нововъзникващите натоварвания са IOPS и интензивни метаданни. Има компромиси в софтуера, който създателите на първите флаш файлови системи направиха, но също и в Luster, за да получите максимална честотна лента. Няма начин да постигнете тези три аспекта на производителността – честотна лента, IOPS и метаданни – без много работа в софтуера за преконфигуриране на основната флаш памет.“
PREV: Cortus се надява да заложи ранен RISC-V HPC иск
NEXT: INTEL ОТЛАГА СЪРВЪРНИ ЧИПОВЕ „SAPPHIRE RAPIDS“, ПОТВЪРЖДАВА ОПЦИЯТА ЗА ПАМЕТ HBM