Statistiky o tom, kolik dat jednotlivé firmy uchovávají ve svých datových centrech, budete hledat marně. Nejenže jde o tajemství, ale toto číslo se neustále a poměrně rychlým tempem mění. Vzhledem na počty datových center a jejich plochu lze odhadnout, že nejvíc dat uchovávají společnosti Google, Microsoft, Amazon a Switch, přičemž v těsném závěsu za nimi budou zřejmě Facebook, Equinix, IBM a další firmy.
Equinix a Switch poskytují datové řešení pro jiné společnosti, zatímco Facebook a Google používají kapacity svých datových center pro vlastní služby. I když Facebook jako provozovatel největší sociální sítě na světě zcela určitě spravuje obrovské množství dat, tak textové informace jsou z důvodu objemu podružné a dominantu u něj tvoří obrázky a stále více se na jeho platformě rozšiřující hosting videa. Alespoň zatím se však Googlu nemůže rovnat, zejména kvůli jeho masívnímu video portálu YouTube a dále pak na data náročným službám jako jsou Google Drive, Mapy, Street View a další. Mnohé pak překvapí to, že v top čtyřce je společně s Googlem například i Microsoft. Ten sice stejně jako Google provozuje velký vyhledávač a stejně tak i rozsáhlou mailovou službu, avšak to, co objemy monumentálně zvedá, je to, že Microsoft patří k největším poskytovatelům firemních cloudových řešení na světě (Microsoft Azure). Stejně tak je na tom i Amazon (Amazon Web Services) a i když Google už též v tomto směru výrazně útočí, Microsoft a Amazon jsou stále výrazně před ním. Google je z důvodu rozsahu svých služeb pravděpodobně stále na datovém vrcholu, to se dá i odhadnout z plochy jeho velkého množství datových center po celém světě. Tak jako další společnosti, i Google však stále staví další. Při ceně přesahující miliardu dolarů to však nejde dělat jako na běžícím páse.
Jak jsme už uvedli, Google zarytě mlčí o objemech dat, která celkem obhospodařuje. Dá se to ale alespoň rozumně odhadnout? I když přesné číslo znají jen firmy samotné, neznamená to, že se nedá tento objem určit poměrně realistický. Pro každou firmu platí fyzikální zákony, a nejen plocha budov, ale i spotřeba v megawattech nám dokáže prozradit, kolik serverů mohou obsahovat jednotlivá datacentra. Tímto směrem („Follow the power“, tedy „sleduj energii“) se při svém odhadu vydal Randall Munroe, bývalý inženýr robotiky z NASA, který se v roce 2006 stal profesionálním kresličem komiksů a je autorem zřejmě nejznámějšího webkomiksu o matematice, IT a vědě nazvaném XKCD. Ve své sekci „What If“ (Co, jak) se věnuje často absurdním, a přitom zábavným otázkám, které mu posílají lidé z celého světa, přičemž v jedné z nich se pokusil odpovědět na to, kolik by data Googlu zabrala prostoru, pokud by byla místo disků uložená na děrných štítcích. V roce 2013 tak na základě energetického odběru datových center Googlu, při počítání 10 až 20 % na chlazení a přidružené úlohy, odhadl, že Google provozuje něco mezi 1,8 až 2,4 miliony serverů. To, že tento odhad není úplně mimo, můžeme vědět i podle toho, že jiný gigant, konkrétně Microsoft, už nějaký ten rok na své stránce uvádí, že provozuje víc než milión serverů. Jestliže současné disky se pohybují kapacitně v jednotkách terabajtů a milion terabajtů je jeden exabajt, je realistické, že úložné kapacity těchto společností se budou pohybovat na úrovni exabajtů. Ale na kolika asi?
Produkce úložišť není bezedná a při odhadu je nutné zohlednit, že k jednomu serveru nelze mít připojen nekonečný počet disků. Například před pár roky Google předváděl své speciálně navržené servery, které měly v té době připojené dva disky s kapacitou 2 TB. Na základě toho Randal Munroe odhadl, že celková úložná kapacita Googlu se bude pohybovat na úrovni deseti exabajtů na discích a zhruba pěti exabajtů na „studených zálohách“ v podobě pásek. Pro zajímavost, výsledkem jeho zábavné otázky bylo, že děrných štítků by bylo tolik, že by pokryly prostor zhruba 1,8krát větší, než je rozloha České republiky, a to do výšky 4,5 km. V roce 2014 přitom ve své přednášce na konferenci TED odhalil, že Google na tento jeho odhad i reagoval. Krátce po publikovaní mu totiž firma zaslala obálku, ve které byla čtveřice děrných štítků s logem Google. Randal se dírky pokusil přečíst ve snaze zjistit, co mu to Google vlastně posílá, ale zjistil, že zpráva je kódovaná. Se svými přáteli proto začal kód luštit a po několika dnech se mu to skutečně podařilo. Dírky bylo možné transformovat na alfabetické znaky, což odhalilo zprávu, která zněla: „Bez komentáře“.
Tento 15exabajtový odhad je pravda dnes už tři roky starý a je nutné ho aktualizovat. Už jen na základe aktuálních statistik víme, že uživatelé nahrají na YouTube každou minutu 600 hodin nového videa. Kvalita videa, a i datový objem je samozřejmě rozdílný. Buďme konzervativní a aby se nám to dobře počítalo, řekněme, že hodina videa má v průměru 1 GB. To znamená, že servery Googlu potřebují jen v rámci samotného YouTube každý den zhltnout zhruba 840 TB nových dat. Ta musejí být minimálně jednou duplikovaná na jiné úložiště na ochranu před hardwarovou poruchou. To znamená, že jen samotný YouTube bude na konci roku potřebovat minimálně o 584 petabajtů, tedy o půl exabajtu prostoru více než na jeho začátku. To je mimochodem i důvod, proč YouTube nemá žádnou relevantní konkurenci. Je totiž jen hrstka firem, které si provozování takového obra mohou vůbec dovolit.
To je – pravda – jen jedna ze služeb, kterou Google provozuje. V rámci poměrně střízlivého odhadu každopádně můžeme konstatovat, že Google dnes skladuje už několik desítek exabajtů, ale zřejmě ne víc než 100 exabajtů dat.
V této souvislosti je vhodné dát si pozor na časté bláznivé odhady různých méně spolehlivých a neodborných médií. Například, když bylo před pár lety uváděno do provozu masivní datové centrum NSA v Utahu, mnoho lidí ho vidělo jako centrum špionáže celého internetu, přičemž se objevily absurdní předpoklady, že by mohlo uskladnit až yottabajt dat. To ale vzhledem k jeho ploše a energetickému odběru není je fyzikálně možné (realisticky jde cca o tři exabajty). Mimo to, ročně se vyrobí a prodá kolem 500 miliónů disků s celkovou kapacitou přibližně 600 exabajtů. Pokud z tohoto počtu necelých 300 miliónů zhltne segment desktopů a notebooků (hlavně nižší kapacity), datová centra, superpočítače a jiná obdobná řešení se dělí o zbytek (dejme tomu 400 exabajtů, teda necelého půl zettabajtu). Je jasné, že někdo při yottabajtových odhadech pustil uzdu fantazii až příliš, protože by šlo o víc než tisíciletou celosvětovou diskovou produkci. Ještě zábavněji působili později „zpresnění“, že datové centrum NSA zřejmě tedy bude mít kapacitu někde mezi exabajtem až yottabajtem dat. To je stejné, jako by někdo řekl, že hmotnost jeho manželky se pohybuje někde mezi jedním kilogramem a až tisíci tunami.
Autor: František Urban