O.S.E.L. - Exascale současnost - Zettascale budoucnost
 Exascale současnost - Zettascale budoucnost
Minulý týden vyšel na Oslovi článek „současná situace v exascale závodech je předběhnutí Aurory Frontierem, možná se do toho nečekaně vloží Čína“. Pojďme se na věc podívat podrobněji.

 

AMD kampus  Markham, Ontario, Kanada.
AMD kampus  Markham, Ontario, Kanada.

AMD dosud nemá zastoupení na poli superpočítačů a plánování překonání Aurory je zjevná snaha urvat kus trhu Intelu v přes 30 let trvajícím nepřátelství plném zrady a zášti.

 

Uvedený plánovaný výkon u Frontier superpočítače 1.5 EFLOPS je špičkový (peak), což znamená výpočty pouze z L1 cache, žádné zpomalení mezi jádry. Pro reálné výpočty se uvádí maximální výkon, který bývá u amerických počítačů cca 80%, můžeme očekávat tedy kolem 1.2 EFLOPS.

 

Tianhe-2, China.
Tianhe-2, China.

 

Čína plánuje spuštění prvního počítače Tianhe-3 (Mléčná dráha 3) o výkonu přes 1 EFLOP na rok 2020, tedy o rok dříve než Aurora s Frontierem, a aktuálně jsou v testovací fázi.

Předchůdce tohoto počítače Tianhe-2, který je v současnosti na 4. místě, prodělal loni úpravu nahrazení starších procesorů Xeon Phi proprietárními procesory Matrix-2000 domácí výroby. V současnosti nejrychlejší čínský superpočítač - TaihuLight (pracuje též na procesorech domácí výroby Sunway) - se dělí o třetí místo s americkým počítačem Sierra postaveným na procesorech IBM.

 

Salomon technické parametry :
2 PFLOP/s teoretický výpočetní výkon,
24192 jader CPU Intel Xeon E5v3 (Haswell-EP), 129 TBoperační paměti RAM,
52704 jader akceleračních koprocesorů Intel Xeon Phi s 13,8TB RAM,
2PB diskové kapacity a 3PBzálohovací páskové kapacity.
Salomon technické parametry : 2 PFLOP/s teoretický výpočetní výkon, 24192 jader CPU Intel Xeon E5v3 (Haswell-EP), 129 TBoperační paměti RAM, 52704 jader akceleračních koprocesorů Intel Xeon Phi s 13,8TB RAM, 2PB diskové kapacity a 3PBzálohovací páskové kapacity.

 

Výrobci počítačů si nekonkurují přímo politicky, jsou řízeni především poptávkou domácích trhů. Např. IBM poslední dobou upravuje své portfolio přesunem investic z vývoje procesorů do cloud computing, (prodejem značky ThinkPad čínskému Lenovo a rozvojem systému Bluemix).

Shodou okolností druhý nejvýkonnější evropský počítač - SuperMUC v Německu - pochází od společnosti... Lenovo. Běží na americkém Xeon Platinum, což je řada škálovatelných procesorů nahrazující odepsaný Xeon Phi.

 

Náš nejvýkonnější superpočítač – Salomon na VŠB v Ostravě – se za poslední rok a půl propadl o 127 příček na 214. pozici ve světě.

V první desítce je 5 počítačů USA, 2 počítače Číny, 2 evropské (dodané americkými a čínskými firmami) a 1 japonský (americké firmy). V první desítce běží 9 počítačů na variantách OS Linux, 0 (slovy nula) na Windows Server a na Mac OS ještě o něco méně. (Sunway dodává i vlastní OS pro svůj superpočítač.)

 

Zettascale.
Zettascale.

 

Zettascale

Klíčovou roli zde hrají mesh sběrnice pro přenos dat mezi jádry, v současnosti jsou úspěšné Intel OmniPath, InfinityBand od Mellanox (která se podílí na Summitu a Sierra), Aries (nahrazující starší Gemini) od Cray, čínský TH-Express 2 od NUDT a InfinityFabric od AMD (má být nasazen na Frontier). (Sunway vyvíjí svou vlastní, např. výkon na jedno jádro Tianhe-2 je kolem 3 TFLOPS, přenosová rychlost TH-Express 2 je 112 Gb/s na port (celková propustnost v řádu TB/s), poměr k výkonu je 3.7%.

Program AlphaZero je produktem společnosti DeepMind. Na obrázku je vchod do budovy, na 6 Pancras Square, v Londýně, kde Google a DeepMind mají základnu.  Kredit: Gciriani, Wikipedia, CC BY-SA 4.0
Program AlphaZero je produktem společnosti DeepMind. Na obrázku je vchod do budovy na 6 Pancras Square v Londýně, kde Google a DeepMind mají základnu. Kredit: Gciriani, Wikipedia, CC BY-SA 4.0

Při zachování současné mesh architektury by toto číslo nemělo klesnout, jinak se stane sběrnice zúžené hrdlo lahve systému. To vyžaduje zvýšení rychlosti na 400 Gb/s. Intel a Mellanox zavádějí 200 Gb/s s využitím PCIe4. Velmi brzy má vyjít specifikace PCIe5, díky které bychom této rychlosti mohli dosáhnout.

 

 

Další důležitý faktor je počet GFLOPs, který dostaneme z jednoho Wattu, odvod tepla je tvrdý fyzikální limit. TaihuLight dosahuje 6 GFLOPS/W, Summit až 15 GFLOPS/W. Na Zettascale bude třeba dosáhnout úrovně 30-50 GFLOPS/W na jádro při výkonu 20-30 MW.

Dennardův zákon (výkon - P=UxI - na plochu čipu zůstává konstantní) přestal platit a tím předvídá konec Moorova zákona, pokud jej nezachrání nová technologie.

Miniaturizaci brání též 7nm technologie, která tvoří limit, pod kterým začínají do fungování elektroniky nezanedbatelně promlouvat jevy kvantové mechaniky.

V současnosti je ale plánovaná masová výroba nové architektury čtyř hradel GAAFET, která by měla do dvou let umožnit vyrábět tranzistory 4nm technologií.

 

Pokud Moorův zákon nepřestane platit, měli bychom tu mít Zettascale superpočítače (tj. milionkrát výkonnější než náš Salomon) kolem roku 2030 – 2035.

 

Pokud se na tyto mašiny nasadí slavná neuronová síť AlphaZero, zažijeme technologickou singularitu?


Autor: Jan Turoň
Datum:12.05.2019