Vzorek
Kolegovi jsme v redakci ukázali asi šest hlaviček webů (ve Firebugu) a řekli jsme mu, co nám hlavičky prozrazují. Od toho vedl už jen krůček k myšlence podívat se na větší vzorek, reprezentativnější, a nějak získané informace setřídit a zpracovat.
Jako vzorek („velké weby“) jsme nakonec vzali data z měření NetMonitoru. Ano, nejsou to „všechny české velké weby“ a k metodice měření NetMonitoru můžeme mít výhrady, ovšem je to poměrně solidní vzorek „relevantních“ webů. Zdrojem pro měření byla veřejně dostupná statistika z května 2011.
Ze zprávy jsme vzali URL webů, a pro některé další výpočty jsme použili i RU (reální uživatelé) a PV (PageViews). Servery jsou ve zprávě uváděny většinou jako domény 2. úrovně. Při sběru dat jsme před tuto doménu přidávali „www“, pokud server nevrátil data nebo vrátil přesměrování, zkoušeli jsme i variantu bez www.
Sběr dat
Sběr dat proběhl z 483 adres dne 13. 7. 2011 (pro puntičkáře: bylo to mezi 14.46 a 14.51 SELČ). Časový úsek, během něhož musel server odpovědět, byl nastaven na 15 sekund, pokud neodpověděl, zůstal záznam prázdný a ve statistice se dostal do kolonky „nezjištěno“, „nezměřeno“ apod.
Skript ukládal odpověď serveru – jednak hlavičky HTTP protokolu, a kromě nich ještě začátek samotného HTML po element <body>
. V hlavičkách jsme si všímali údajů Server, Content-Type a X-Powered-By, ve vlastním dokumentu jsme pak hledali deklaraci DOCTYPE, DTD, charset, zjišťovali jsme, zda servery používají jQuery, Google Analytics, zda nabízejí RSS, zda mají vyplněná metadata keywords a description, zda nabízejí tiskový styl a zda mají styl přímo v HTML, nebo v externím souboru.
Vzorek serverů zahrnoval weby od Seznamu (5.490,000 RU, 2973 mil. PV) až po stránky pokemon-guru.cz (880 RU, 11 227 PV), tedy od největších českých hráčů po miniaturní fanweb. Společným kritériem byla pouze přítomnost v NetMonitoru.
Výsledky
Pojďme se podívat na to, co nám servery o sobě prozradily a co jejich měření řeklo o českém internetu z technického hlediska.
Znaková sada
Začněme od snadno zjistitelného údaje, totiž od znakové sady. Na českých webech jednoznačně dominuje UTF-8 (73% z měřených serverů), za ním následuje Windows-1250 (14%) a na konci je ISO-8859–2 (zastoupení 4%). Zbytek do sta procent připadá, jak jsme si psali výš, na servery, které neodpověděly, nebo které informaci o znakové sadě vůbec neposílají.
Procentuální zastoupení jsme vypočítali, pro zajímavost, i podle RU, tedy „kolik uživatelů webů dostává jaké kódování“. V grafu jsou vyneseny obě hodnoty; je vidět, že se moc neliší.

Server
Zajímavější pohled nabídlo zjišťování použitých HTTP serverů dle hlavičky Server (resp. „posledního serveru před sítí“). Podle očekávání vede Apache, IIS používá z „velké desítky“ jediný server, iDnes. Apache používá 66 procent serverů. IIS pak 10 procent, nginx 8 procent, 14 procent nezjištěno, 0,8 procenta lighttpd.
U serverů jsme opět použili přepočet podle RU a podle PV, a tam se poměry dramaticky změnily. Obrovský objem uživatelů a stránek, generovaný Seznamem, pořadí serverů naprosto obrátil, takže zatímco „největší počet“ serverů běží na Apache, je „největší počet stránek“ (PV) posílán z nginx. Hezky to ilustruje následující graf.

Lze oprávněně tvrdit, že je pravděpodobné, že Apache je u malého serveru „technologie první volby“ – LAMP je univerzálně dostupný a téměř všude. Proto je Apache při přepočtu na počet serverů vítěz. Velké servery, které už mají nemalé počty odbavených uživatelů a stránek, místo náročného Apache používají rychlé alternativy, nejčastěji právě nginx – ovšem právě v kombinaci s obrovským počtem uživatelů a stránek vypadá statistika zcela jinak: Ano, Apache je skoro na všech serverech, ale na těch opravdu významných je právě nginx.
Jako perlička pak je, že IIS má svých 10 % jak podle počtu serverů, tak i podle počtu uživatelů či PV.
Serverový jazyk
Spíš doplňkem k měření bylo porovnávání serverových technologií. Naprostá většina webů nedává znát interní technologii pomocí přípon (.php, .aspx atd.), takže hrubý odhad jsme dělali pouze z hlavičky X-Powered-By
. Téměř polovina serverů (45 procent) tuto hlavičku posílá prázdnou. 46 procent pak přiznává použití PHP, 9 % ASP.NET.
Čistě pro zajímavost: PHP4 uvedly pouhé 3 servery, 148 se hlásí k PHP5.2 a 33 k PHP5.3. 22 serverů pak v hlavičce Powered-By poslalo jako odpověď „Nette Framework“.

Značkovací jazyk
Z doctype a DTD jsme zjišťovali verzi použitého značkovacího jazyka. Zde potvrdilo svou dominantní pozici XHTML, a to verze 1.0 – rovná čtvrtina připadá na XHTML 1.0 Strict, 38 procent pak na XHTML 1.0 Transitional. XHTML1.1 používají pouhá dvě procenta serverů. Zbytek připadá na různé verze HTML4, jednotky procent patří HTML5 a u pětiny serverů se nepodařilo jazyk detekovat.
Neměřili jsme validitu ani jiné faktory, vycházeli jsme pouze z údajů, co servery tvrdily v doctype a v DTD.

I tento graf jsme si přepočítali podle RU, odchylky nebyly příliš velké:

Další údaje
Z hlaviček titulních stránek jsme získali i další údaje, které jsou shrnuty v následujícím grafu:

Měřili jsme počet webů, které mají stylopis přímo v HTML, pak počet webů s vyplněnými meta tagy keywords a description, existenci tiskového stylu, zastoupení jQuery, Google Analytics a nakonec i to, zda web nabízí RSS kanál (pomocí tagu link application/rss+xml
).
Inline stylopis je záležitost téměř pětiny webů (17 %). Osvětová práce lidových SEOlogů zdůraznila potřebu vyplnit tagy description a keywords – můžeme se o efektivitě těchto věcí přít, ale na druhou stranu, když už se to tam designéři naučili psát (keywords: 66 %, description: 75 %), je to určitě lepší, než kdyby tam nepsali nic, nebo svou kreativitu vybíjeli vymýšlením vlastních novinek.
Tiskový styl nabízí 30 procent webů. Je to hodně, nebo málo? Vzhledem k tomu, že tiskový styl může hodně pomoci zabudované funkci prohlížeče (nezapomeňte, to, jestli si vaši stránku někdo vytiskne, nezáleží na vás!) Navíc odladění takového stylu není většinou velký problém – tedy s dobře napsaným markupem. Určitě by to mohlo a mělo být víc.
Na jQuery jsme byli zvědavi, a po pravdě řečeno je výsledek slušný. Knihovna, která existuje vlastně jen pár let, má téměř 40% penetraci (zde mohlo dojít ke statistické chybě, kdyby si některý web přejmenoval „jquery-blabla.js“ na nějaký indiferentní název, to už by bylo pro nás bez analýzy dalších souborů nezjistitelné). Což je pěkné.
Čistě pro zajímavost jsme se podívali na přítomnost měřicích kódů Google Analytics. Vypadají téměř nepoužívané: 16% zastoupení. Ale toto měření je nutné brát opravdu cum grano salis – zachytili jsme pouze ty, kteří si jej dali do hlavičky souboru.
Poslední test, měření počtu serverů s RSS, ukázalo, že jej 42 procent nabízí. Při přepočtu podle RU vychází, že téměř polovina (48 procent) uživatelů má k dispozici odběr RSS serverů. Kolik z nich to opravdu využívá, to je jiná otázka.
Závěr
Statistika vznikla jako oddychové téma, jako odpověď na otázku: „Co vlastně můžeme o serveru z jeho metadat zjistit?“ Nepoužili jsme žádné invazivnější metody zkoumání, data jsme prostě sebrali a vyhodnotili. Přesto nám to poskytlo zajímavý (minimálně pro technika) pohled na české servery. Nelze z ní usuzovat nic víc než to, co říká – jsou to jen informace poskytnuté serverem. Proto se ve statistikách neobjevil např. Python nebo Ruby (servery tyto informace neposlaly). Nezkoumali jsme ani poddomény nebo další stránky. Šlo nám jen o to, co prozradí hlavičky na homepage.
Možná by nebylo od věci zopakovat takový test za čas a podívat se, zda a jak se český web v tomto směru vyvíjí.
Přehled komentářů