Meta staví obrovský systém Nvidia DGX A100, který se stane „nejrychlejším AI superpočítačem na světě“

Meta AI Research SuperCluster

Meta, společnost dříve známá jako Facebook, vyvinula obrovský superpočítač s umělou inteligencí, který se podle ní stane nejrychlejším systémem umělé inteligence na světě, jakmile bude plně postaven v polovině roku 2022.

AI Research SuperCluster (RSC) se v současnosti používá k trénování velkých modelů v oblasti zpracování přirozeného jazyka (NLP) a počítačového vidění pro výzkum. Společnost uvedla, že doufá, že „jednoho dne“ vycvičí modely s biliony parametrů a postaví nové systémy umělé inteligence, které dokážou zajistit překlady hlasu v reálném čase velkým skupinám lidí.

Meta uvedla, že vývoj superpočítače byl zdržen vzdálenou prací a omezením dodavatelského řetězce čipů a komponent.

V roce 2017 vytvořila laboratoř Facebook AI Research superpočítač s 22 000 GPU Nvidia V100 Tensor Core v jediném clusteru. Prováděl 35 000 školicích úloh denně a sloužil jako hlavní superpočítač společnosti s umělou inteligencí.

Ale v roce 2020 se Facebook rozhodl zvýšit svůj výpočetní výkon a postavil nový superpočítač, který zvládne pokročilejší pracovní zátěže AI. Současný systém RSC se skládá ze 760 systémů Nvidia DGX A100, z nichž každý obsahuje osm GPU A100 a dva CPU (Meta nepotvrdila dodavatele, ale standardní DGX má dva 64jádrové CPU AMD).

6080 GPU je připojeno přes dvouúrovňovou Clos tkaninu Nvidia Quantum 200 Gb/s InfiniBand. Systém má 175 petabajtů Pure Storage FlashArray, 46 petabajtů vyrovnávací paměti v systémech Penguin Computing Altus a 10 petabajtů Pure Storage FlashBlade.

Ve srovnání s předchozím systémem Meta spouští RSC pracovní postupy počítačového vidění až 20krát rychleji, provozuje knihovnu Nvidia Collective Communication Library (NCCL) více než devětkrát rychleji a trénuje rozsáhlé modely NLP třikrát rychleji, podle interních – a neověřených – benchmarků.

Meta uvedla, že model s desítkami miliard parametrů může dokončit trénink za tři týdny ve srovnání s devíti týdny předtím.

Společnost superpočítač stále staví a nakonec očekává připojení 16 000 GPU jako koncových bodů. Meta navrhla systém mezipaměti a úložiště, který dokáže obsloužit 16 TB/s tréninkových dat, a plánuje jej škálovat až na jeden exabajt.

Předpokládá se, že konečný systém bude schopen pěti exaflopů smíšené přesnosti výpočtu.

V závislosti na benchmarku je současným nejrychlejším superpočítačem s umělou inteligencí superpočítač Perlmutter ministerstva energetiky. Je schopen čtyř exaflopů výkonu AI a obsahuje 6 159 GPU Nvidia A100 a 1 536 CPU AMD Epyc.

Italský systém Leonardo, který obsahuje 3 500 procesorů Intel Sapphire Rapids a 14 000 GPU, by měl po brzkém uvedení předběhnout Perlmutter.

Později v tomto roce USA očekávají uvedení dvou systémů schopných více než exaflopu výkonu – v rámci benchmarku LINPACK, nikoli benchmarku AI používaného Meta.

První, Frontier, by měl být schopen více než 1,5 exaflops a bude obsahovat 9 000 CPU AMD Epyc a 36 000 GPU AMD Radeon Instinct MI200.

Po něm bude následovat Aurora, který by mohl překročit 2 exaflopy. Bude se chlubit 18 000 procesory Intel Xeon Sapphire Rapids a 54 000 GPU Intel Xe.

Předpokládá se však, že Čína loni tajně uvedla na trh dva exascale superpočítače.

Zdroj: datacenterdynamics.com

Foto: Meta

@RadekVyskovsky

Související články

Leave a Comment