Se on suhteellisen hiljainen kansainvälinen supertietokonekonferenssi laitteistorintamalla, eikä uusista prosessoreista tai kytkimien ASIC:istä ilmoiteta tavallisilta epäillyiltä. Trish Damkroger, Intelin korkean suorituskyvyn tietojenkäsittelydivisioonan johtaja, piti avauspuheenvuoron ISC 2021:n avaamisesta ja tarjosi hieman enemmän tietoa "Sapphire Rapids" Xeon SP -prosessorista ja "Ponte Vecchio" GPU-kiihdyttimestä, jotka ovat nyt tulossa ensi vuonna, alkaen "Aurora" A21 exascale supertietokone Argonnen kansallisessa laboratoriossa, suurin osa näiden sirujen syötöistä ja nopeuksista on edelleen mysteeri.
Kukaan ei ole virallisesti sanonut, että Aurora-kone on luisunut tarkistetusta toimituspäivästään vuoden 2021 lopulla, mutta tämä on ollut epäilys siitä lähtien, kun Intel ilmoitti lipsahtamisesta 7 nanometrin prosessissaan, jota käytetään etsaamaan osia Ponte Vecchio GPU, joka tunnetaan myös nimellä Xe HPC -laite, viime heinäkuussa.
Siihen aikaan suunnitelmana oli saada Aurora pellolle Argonnessa vuoden 2021 loppuun mennessä, mutta tämä vaikutti epätodennäköiseltä, koska silloinen toimitusjohtaja Bob Swan kertoi Wall Streetille, että Ponte Vecchion ensimmäiset toimitukset jäisivät vuoden 2021 lopulle. vuoden 2022 alkuun. Intel tarkisti Ponte Vecchion suunnitelmaa käyttää sekä omissa valimoissaan että kilpailijoidensa, tässä tapauksessa Taiwan Semiconductor Manufacturing Corp., syövytettyjä siruja, joilla on itse asiassa toimiva 7 nanometrin prosessi toisin kuin Intel ja GlobalFoundries. (Samsung, ainoa muu 7 nanometrin sirutoimittaja ja IBM:n Power10-kumppani, työskentelee sen parissa.)
Damkroger ei muuten maininnut, että Intel itse asiassa lykkää Sapphire Rapids Xeon SP -prosessorin toimituspäivää, jota etsataan Intelin 10 nanometrin valmistusprosessin Enhanced SuperFin -säädöllä. Mutta Lisa Spelman, äskettäin uudelleen organisoidun Intelin Xeon- ja Memory Groupin pääjohtaja, julkaisi blogikirjoituksen, jossa selitti palvelinsirun toimittamisen viivästymistä - no, enemmänkin kuin Ponte Vecchio -grafiikkasuorittimien jälkeinen medulla oblongata. tehdä suurimman osan ajattelusta - Aurora-järjestelmä. Nyt sekä Sapphire Rapids että Ponte Vecchio ovat luisuneet ja näyttää erittäin epätodennäköiseltä, että Argonne saa järjestelmän ydinosat tänä vuonna.
Joka tapauksessa Sapphire Rapidsin lipsahdus vaikuttaa enemmän asiakkaisiin kuin Ponte Vecchion lipsahdus, ja nyt näyttää siltä, että Ponte Vecchio voittaa Sapphire Rapidsin kentälle.
Sapphire Rapids -siru perustuu "Golden Cove" -ytimeen, jossa on uusi mikroarkkitehtuuri, joka sisältää kaksi uutta kiihdytintä, joista Spelman puhui. Ensimmäinen on nimeltään Advanced Matrix Extensions tai AMX, ja epäilemme, että se on AVX-512-vektorimoottoreiden päällä oleva matemaattinen matriisipeitto, joka pumppaa matriisitoimintojen suorituskykyä, joka muistuttaa Nvidian GPU:iden Tensor Core -yksiköiden suorittamaa suorituskykyä. sekä matriisipeittokuvat vektoreille IBM:n tulevissa Power10-siruissa. Spelman ei tyrmää AMX:tä, mutta sanoo, että Sapphire Rapidsin varhaisessa silikonissa koneoppimispäätelmät ja harjoitustyömäärät toimivat 2 kertaa nopeammin kuin nykyisillä "Ice Lake" Xeon SP -prosessoreilla, joiden vektorimoottoreissa on vain sekalaista tarkkuutta. tehostaa tekoälyn suorituskykyä.
Toinen Golden Cove -ytimen tuleva ominaisuus – ainakin palvelimille suunnattu muunnos – on nimeltään Data Streaming Accelerator eli DSA, ja se on suunniteltu erilaisiin korkean suorituskyvyn työkuormiin tehostamaan myös suoratoistodatan liikkeen suorituskykyä. kuten muunnostoiminnot, joita usein tehdään tietojen suoratoistoon tallennus-, verkko- ja analytiikkatyökuormituksessa.
"Sapphire Rapidsin kysyntä jatkaa kasvuaan asiakkaiden oppiessa lisää alustan eduista", Spelman sanoi blogiilmoituksessaan. "Koska Sapphire Rapidsissa on paljon parannuksia, lisäämme vahvistusaikaa ennen tuotantojulkaisua, mikä virtaviivaistaa käyttöönottoprosessia asiakkaidemme ja kumppaneidemme kannalta. Tämän perusteella odotamme nyt, että Sapphire Rapids on tuotannossa vuoden 2022 ensimmäisellä neljänneksellä ja rampin alkavan vuoden 2022 toisella neljänneksellä.
AMD:n ihmisten täytyy nauraa ja nauraa. Luultavasti myös Ampere Computingin. Voimme kuulla "Sapphire Not So Rapids" ja "Ponte Vecchio Too Far" -vitsit kaukaa. . . .
On vaikea sanoa, milloin nykyisen "Ice Lake" Xeon SP:n seuraajan piti tulla markkinoille, koska Ice Lake itse hyppäsi niin paljon. Ice Lake viivästyi noin kolme vuotta, kun se lanseerattiin maaliskuussa, joten sen olisi pitänyt sijoittaa Sapphire Rapidsiksi tullut jonnekin 18-24 kuukautta sen jälkeen. Soita maaliskuuksi 2019 ollaksesi antelias. Tämä tarkoittaa nyt sitä, että 10 nanometrin sirut toimivat edelleen kolme vuotta jäljessä tämän viiveen jälkeen eivätkä ole kyenneet kiinni. Toivottavasti Intelin vuoksi ei tule uutta viivettä "Granite Rapids" Xeon SP:n kanssa, joka syövytetään 7 nanometrin prosesseilla. Heinäkuun 2020 viiveen jälkeen Granite Rapids Xeon SP -prosessorit putosivat vuoden 2023 ensimmäiselle puoliskolle verrattuna odotettuihin julkaisuihin vuoden 2022 alussa tai puolivälissä. Silloin Sapphire Rapids on nyt iskemässä.
ISC 2021:n suuri paljastus oli, että Sapphire Rapids -prosessorista tulee HPC- ja AI-työkuormiin tarkoitettu muunnos, joka sisältää HBM-muistin. "Sapphire Rapids ilmestyy ennen Sapphire Rapidsia HBM:n kanssa, mutta suunnilleen samassa ajassa", Damkroger sanoo. "Ja kuka tahansa voi ostaa Sapphire Rapidsin HBM:llä. Voit käyttää HBM:ää yksinään tai voit käyttää sitä DRAM-muistin kanssa. Tämä on todella mielenkiintoinen kehityskulku. Ja kuten Damkroger sanoi, tämä ei ole vain erityinen SKU, jonka vain tietyt asiakkaat voivat ostaa. Kysymys kuuluu, mitä HBM-lisäys maksaa ja kuinka paljon suorituskykyä se lisää.
Ympärillä liikkuu huhuja siitä, miltä Sapphire Rapids with HBM näyttää, joista yhden voit nähdä täältä ja mikä vaikuttaa melko uskottavalta. Tässä raportissa sanotaan, että Sapphire Rapids -sirussa on neljä 15-ytimen laatta laskemista varten, joista yksi ydin on inaktivoitu, oletettavasti tehokkaan tuoton lisäämiseksi. Suurin ytimien määrä pistorasiaa kohti on siis neljä kertaa neljätoista tai 56 ydintä, ja mahdollinen harppaus 60 ytimeen, jos 7 nanometrin tuotto paranee.
Tämä lähestymistapa on täsmälleen sama, mitä IBM tekee Power10-sirunsa kanssa, jossa on 16 fyysistä ydintä ja vain 15 ydintä aktivoidaan alusta alkaen, koska he tietävät Samsungin 7 nanometrin prosessin tuoton – miten tämä pitäisi ilmaista ? – hankalaa. Ja ennen kuin aloitat, muista, että "Pascal"- ja "Ampere GPU" -mallien kanssa Nvidia teki saman asian TSMC:n 7 nanometrin prosesseilla.
Ei ole selvää, tehdäänkö nämä Sapphire Rapids -kantapiirit siruista, mikä merkitsisi sitä, että I/O- ja muistiohjaimet on erotettu ydinlohkoista, vai ovatko ne kokonaisia suorittimia, jotka on toteutettu monisirutyylillä, kuten AMD teki "Napoli" Epyc 7001s ja aikaisemmat Opteronit kauan sitten ja kuten IBM on tehnyt Power5:stä vuonna 2005. HBM2-pinoja on neljä, joten niillä kaikilla voi olla oma muisti ja se voi olla MCM, jos tämä raportti pitää paikkansa. . HBM2-pinot ovat neljä korkeaa, ja niiden kapasiteetti on 16 Gt, yhteensä 64 Gt per liitäntä. Ja se on täysin kohtuullinen määrä päämuistia HPC- ja AI-sovellukselle, ja 1 TB/s kaistanleveydellä se on myös melko kohtuullinen. HBM-kapasiteetin voisi mielestämme kaksinkertaistaa 128 Gt:ksi melko helposti, mutta ei halvalla kahdeksan korkean pinon avulla. Ei ole selvää, kuinka paljon DDR5-muistia tämä Sapphire Rapids -kanta käsittelee, mutta se on todennäköisesti vähintään 512 Gt ja todennäköisesti 1 Tt ja ehkä jopa 2 Tt.
Huippuluokan Sapphire Rapids -sirujen odotetaan painavan 400 wattia, mukaan lukien niiden HBM2-muisti. Vitsailimme kauan sitten, että kaikki tietojenkäsittely näyttäisi pitkällä aikavälillä grafiikkakorteilta. Tämä on varmasti pitänyt paikkansa Fujitsu A64FX- ja NEC Aurora -prosessoreissa, joita käytetään HPC:ssä (se on eri Aurora), ja pitkällä aikavälillä voit odottaa myös Epycin HBM-varianttia. Se saattaa itse asiassa olla yksi salaisuuksista eksaasteikkojärjestelmissä, joita Hewlett Packard Enterprisen Cray-yksikkö rakentaa Yhdysvaltain energiaministeriölle.
Tiedämme jo, että Intel ja HPE/Cray käyttävät kaksikantista Sapphire Rapids -solmua, jossa on kuusi Ponte Vecchio GPU -kiihdytintä, jotka on linkitetty PCI-Express 5.0 -väylän kautta CXL 1.1 -protokollalla suorittimiin. Kolme GPU:ta prosessoria kohden, aivan kuten IBM:n ja Nvidian rakentamassa Oak Ridge National Laboratoryn "Summit"-supertietokoneessa.
Tämän tarinan yläosassa olevassa ominaisuuskuvassa näkyvässä Ponte Vecchio Xe HPC -grafiikkasuorittimessa on 49 ruutua ja yli 100 miljardia transistoria. Damkrogerin mukaan se on peto, ja siihen on kytketty virta ja varhainen silikoni käy läpi testausta ja validointia, ja hän mainitsi myös muut saatavilla olevat muototekijät, kuten näet yllä. Kuvassa on neljän GPU-alijärjestelmän, joka perustuu Open Compute Projectin Open Accelerator Module -moduuliin, sekä kahdeksan GPU-alijärjestelmää, jota ei ole esitetty, mikä oletettavasti myös vastaa OAM-spesifikaatioita. Oletettavasti näillä on yhtenäiset rajapinnat CXL:n kautta GPU:iden välillä ja prosessoreihin PCI-Express 5.0 -kytkinkudoksen avulla.