Graphcore oznamuje AI čip druhé generace Colossus Mk2

The IPU-Machine M2000

Britský návrhář čipů Graphcore představil platformu IPU (Intelligence Processing Unit) druhé generace pro pracovní zatížení umělé inteligence.

IPU-Machine M2000 je vybaven čtyřmi novými 7nm Colossus Mk2 GC200 IPU procesory, které nabízejí osmkrát vyšší výkon než Mk1. Může se pochlubit 59,4 miliardami tranzistorů, což je více než 54 miliard v největším GPU Nvidia, A100.

Každý čip GC200 má 1 472 nezávislých procesorových jader a 8 832 samostatných paralelních vláken, vše podpořeno 900 MB paměti RAM v procesoru. Čtyři z nich společně v 1U M2000 přináší jeden petaflop celkového AI výkonu, tvrdí společnost, za cenu 32 450 dolarů.

Zákazníci mohou začít s jedním boxem připojeným k existujícímu CPU serveru nebo k tomuto serveru přidat celkem až osm M2000. Samostatně společnost prodává IPU-POD64 s 16 M2000 s v 19palcovém racku, s teoretickou schopností škálovat až k 64 000 IPU. Všechny čipy jsou podporovány softwarem pro správu paměti Poplar.

Graphcore získala stovky milionů od investorů včetně společností Microsoft, BMW i Ventures, Dell Technologies, Samsung Electronics a Demise Hassabise, spoluzakladatele DeepMind společnosti Google. Začátkem letošního roku, když získala 150 milionů dolarů, byla oceněna na 1,95 miliardy dolarů.

Není jasné, kolik skutečných zákazníků společnost má, ačkoli Microsoft je jeho zákazníkem s nejvýznamnějším profilem – v náhledu nabízí první IPU na cloudu. Oxford Nanopore, EspresoMedia, Oxfordská univerzita, Qwant a Citadel používají čipy.

Hedgový fond Citadel zadal podrobnou nezávislou analýzu stroje Mk1 a M1000, kterou si můžete přečíst zde. Při použití vlastních benchmarků bylo zjištěno, že IPU byl „jasným vítězem v jednoduché přesnosti proti GPU V100 od Nvidia (porovnání na čip)“, ale zatímco „poskytuje vyšší propustnost, GPU podporuje větší operandy díky vyšší kapacitě paměti zařízení. V našich experimentech jsou největší operandy s čtvercovou maticí, které odpovídají jednomu IPU, 2 944 × 2 944, zatímco na GPU s kapacitou 32 GB jsou zhruba ∼ 50 000 × ∼ 50 000. “

Pro smíšenou přesnost „srovnání nepřináší jasného vítěze a vyžaduje podrobnější diskusi … Na obou zařízeních podporuje specializovaný hardware (jednotky TensorCores a AMP) násobení matic ve smíšené přesnosti. Přestože jeden IPU přináší zhruba stejný teoretický výkon jako jeden grafický procesor (GPU) poskytuje IPU v benchmarcích GEMM nižší výkon než grafický procesor V100: 58,9 TFlops / s vs. 90,0 TFlops / s. IPU používá nižší zlomek svého teoretického limitu (47,3%) než GPU (72,0%).“

„Také ve smíšené přesnosti podporuje GPU větší operandy. Největší operandy se čtvercovou maticí, které jsou k IPU připojeny, jsou 2 688 × 2 688, zatímco na GPU s kapacitou 32 GB jsou zhruba ∼72,000× ∼72,000.“

Pro některá pracovní zatížení, jako je generování pseudonáhodných čísel, vědci našli významnou výhodu v používání IPU, když došlo na propustnost, ale uvedli, že poskytují nižší kvalitu náhodnosti. „Výkonová výhoda IPU oproti GPU se zdvojnásobí v porovnání na desku.“

Zdroj: datacenterdynamics.com

Související články

Leave a Comment