Komentáře k článku
Co prozradila homepage velkých českých serverů?

Před časem jsme v redakci diskutovali s kolegou o tom, co vlastně prozrazují „hlavičky“ v HTTP protokolu. Že v nich putují zajímavé informace o klientu, to je známo i mírně poučeným uživatelům, ale co prozrazují naopak o serveru? Udělali jsme si drobný průzkum velkých českých serverů a zde jsou výsledky.
apache
je mozna velky a relativne narocny, ale i tak se da pouzit bez problemu na projektech co jsou v netmonitoru v top10. Ostatne minimalne o jednom takovem projektu vim ;-)
Je take relativne caste, ze se nechava apache se vsemi svymi vyhodami na vydavani dynamickeho obsahu a staticka cast se odbavuje z nejake subdomeny kde bezi prave neco odlehceneho typu lighttpd nebo nginx. Coz se ve statistikach pochopitelne neobjevi …
Dalsi docela caste schema je, kdy pred apachem vydavajicim dynamicky obsah je nginx jako reverzni proxy. Jedna se o relativne casty zpusob optimalizace serveru.
Takze vysledkem je, ze mate presna cisla, ktera s realitou nemaji nic spolecneho. Proste je okurkova sezona … co se da delat.
Re: apache
Souhlas. Vypovídající hodnota o realitě je poměrně malá, z výše uvedených důvodů.
Re: apache
ani ne, apache má dlouhou odezvu a mamutí spotřebu ram – navíc oproti nginx nenabízí o mnoho navíc.
tudíž jeho použití za nginx má opodstatnění pouze kvuli .htaccess (což dost pochybuju že autory větších portálů trápí, jelikož přepsání těch pár řádek není zas takový problém).
každý kdo má větší traffic později šáhne po nginx nebo varnish cache.
to bych spíš věřil že někde běží tomcat.
Re: apache
Určitě! Tomcat někde musí běžet, ale nehlásí se :) Stejně tak různé servery pro Python / Ruby. Našel jsem v datech jediný případ „přiznaného Ruby“ (v Powered-By), zbytek o platformě cudně mlčel a spadl do „nezjištěno“.
Perlička: Jeden server z měřených posílá hlavičku „X-Powered-By: Chuck Norris“
Re: apache
Treba vetsina serveru Seznamu bezi na pythonu … to je obecne znama vec a hadam ze v tom seznamu z netmonitoru jich par bude ;-)
Re: apache
Je to obecně známá věc, o tom žádná, ale v měření šlo jen o to, „co lze zjistit z hlaviček“. Není to hloubková analýza českého webu, je to vzorek X webů a data vyčtená z jejich hlaviček… Když se tam Python neprojevuje, tak se v měření neobjeví.
Re: apache
Dobrý den,
jaké Accept-* hlavičky jste používali? Dost to totiž mohlo ovlivnit výsledky měření u znakové sady. Server generuje své hlavičky až na základě toho, co pošle prohlížeč, a ten typicky v těch hlavičkách pošle něco jako (FF4 v mém případě):
Accept-Language cs,en-us;q=0.7,en;q=0.3
Accept-Encoding gzip, deflate
Accept-Charset utf-8;q=0.8,*;q=0.7
Čili v tomto příkladu je preferováno UTF-8, pak cokoliv a server se tomu může přizpůsobit.
Z těch nasbíraných dat by také šlo odvodit, kolik serverů provádí kompresi obsahu – hlavička Content-Encoding (tedy pokud v požadavcích bylo Accept-Encoding).
Popřípadě se dal udělat test na automatické jazykové verze a jejich servírování podle Accept-Language.
Re: apache
Používali jsme hlavičku dotazu, která odpovídá „českému FF4“ – tedy stejné Accept-*, UA atd. Content-Encoding jsme netestovali, to je dobrý tip, stejně jako jazykové verze. Skripty a seznam webů jsou připravené, takže není problém přidat další testy.
Re: apache
Nebol to náhodou server auto.cz?
http://www.statistiky-domen.sk/domains/16167-autocz-sk
Re: apache
Tomcat frci treba na pravednes.cz
Re: apache
Doplnění schémat je pěkné, děkuji za ně. Statickou část webů jsme nezjišťovali, protože jsme zkrátka četli homepage. Na statické soubory a CDN se podíváme třeba příště.
U serverů jsem dostatečně nezdůraznil, že jsme zjišťovali, co posílá server jako odpověď v hlavičce Server. Napsal jsem to tam jen cca třikrát, takže to snadno někdo přehlédne… :) No a zbytek čísel – kódování, značkovací jazyk, RSS, … – domníváte se, že z nějakých podobných důvodů jsou tyto údaje mimo realitu? Jako že třeba server interně jede v KOI-8 a HTML, ale předsazený nginx to schválně převádí do ISO-8859-2 a XHTML, aby zmátl naslouchajícího nepří… ehm, uživatele? ;)
Přepočty na RU a PV
Rozumím tomu správně, že jste vždy vzali pouze home page a přepočty na RU/PV pak vychází jen z hypotézy, že všechny další stránky budou vracet totéž?
Re: Přepočty na RU a PV
Marku, přesně tak. Přepočet na RU/PV je tu spíš hříčka, protože ze statistik NetMonitoru nevyčtu jednotlivé poddomény, navíc, jak známo, některé servery nasazují stejný měřicí kód na víc „serverů v rodině“. Je mi jasné, že jiná část webu může dělat třeba 50% návštěvnosti a běžet na jiné technologii. Ale jak říkám – šlo spíš jen o to ukázat, co řeknou hlavičky, udělat z toho nějaký „výcuc“, a přepočet s PV/RU se nabízel jako zajímavost, „jiný úhel pohledu“, i když je to zatíženo takovouto chybou.
Re: Přepočty na RU a PV
Jo jo, i tak je to zajímavé. Díky za test.
RSS vs. Atom
Trochu mne překvapilo malé zastoupení RSS kanálů (42%), čekal bych víc. Nemůže to být tím, že hodně webů nepoužívá přímo RSS ale Atom? Tudíž tam mají:
<link title="…" href="…" type="application/atom+xml" rel="alternate" />
Nešlo by z té statistiky ještě vytáhnout zastoupení jednotlivých agregačních formátů případně jejich verzí?
Re: RSS vs. Atom
Šlo by, a udělám. Podle pohledu do kódu to bývá buď RSS, nebo Atom a RSS. Důvod nízkého zastoupení vidím spíš v tom, že mnoho z těch webů nemá z principu pro RSS využití – třeba zrovna vyhledávače a portály.
Re: RSS vs. Atom
28 serverů má ATOM i RSS, 176 jich má pouze RSS, 3 mají pouze ATOM. Konkrétní verze můžeme změřit příště (bude potřeba stáhnout i ten feed).
Verze PHP
Viz také mé několikaleté srovnávání verzí PHP všech domén v
.cz
. Zkoumal jsem i zastoupení jednotlivých webových serverů.Meta značka Description
Meta značku
Description
považuji za užitečnou. Vyhledávače (např. Google) její obsah totiž zobrazují v případě, že na cílové stránce nenajdou hledaný text (který je třeba jen ze zpětných odkazů).Značku
Keywords
podle mě na druhou stranu už prakticky nikdo nepoužívá.Opravdové XHTML
Zajímavé by bylo vědět, kolik serverů posílá stránky jako opravdové XHTML, tedy s hlavičkou application/xhtml+xml. Jinak je to jenom hra na XHTML, pokud prohlížeč dostane stránku jako text/html, tak ji zpracuje jako staré dobré HTML.
Můj tip: 0, slovy ani jedna.
Re: Opravdové XHTML
Ad „pokud prohlížeč dostane stránku jako text/html, tak ji zpracuje jako staré dobré HTML.“
To není pravda – jestli myslíš to, čemu Firefox říká „Režim zpětné kompatibility“ a „Režim platných standardů“. „Režim platných standardů“ se použije, i když XHTML stránka přijde s HTTP hlavičkou
Content-Type: text/html
Re: Opravdové XHTML
„Režim zpětné kompatibility“ a „Režim platných standardů“ jsou zobrazovací režimy, nesouvisí s XHTML.
Re: Opravdové XHTML
Obávám se, že tahle diskuse nikam nevede… ale na tohle ještě musím reagovat: souvisí to spolu právě v tom, že když stránka přijde s MIME typem
text/xml
,application/xml
neboapplication/xhtml+xml
, tak se použije (alespoň ve FF) ten „Full Standards Mode“.
Re: Opravdové XHTML
A teď se zrovna povedlo něco pěkného :-)
V předchozím komentáři jsem omylem napsal <code> místo </code> (za application/xhtml+xml) a místo aby mi to systém omlátil o hlavu a řekl, ať to opravím, tak si něco domyslel – a samozřejmě si to domyslel špatně, protože zbytek věty měl být už normálním písmem. A k tomu je, milé děti, dobrá ta validita a striktní syntaxe (mimo jiné). Dobrou noc.
Re: Opravdové XHTML
Striktní syntaxe ano, ale (alespoň v tomto případě) na úrovni kontroly vstupu, ne výstupu. Jasně, že je dobré, když vás systém při odesílání příspěvku upozorní na to, že tam máte chybu — o tom snad nikdo nepochybuje, ne? Ale nevidím žádné plus v tom, kdyby až do rána (v případě nějakého staršího článku pak bůhví do kdy) byla celá stránka mimo provoz, protože máte půlku věty v code…
Re: Opravdové XHTML
presne tak HTML dokument s XML syntaxou a je stále len (chybný) HTML dokument. o type dokumentu rozhoduje jeho MIME typ.
Re: Opravdové XHTML
viz Mozilla’s DOCTYPE sniffing
I když neříkám, že je to optimální…
Kdyby náhodou někdo nevěděl, kdo za to může: Microsoft a jeho parodie na www prohlížeč.
Re: Opravdové XHTML
To ale nič nemení na fakte že keď posielam dokument s MIME typom text/html tak ho tým označím ako html dokument, bez-ohľadu na doctype, alebo syntax je to html s chybnou syntaxou… rovnako ako keď posielam súbor s MIME typom image/png tak tým prehliadaču dávam jasne najavo že je to súbor v PNG formáte a nemôžem ho považovať napr. za MP3 súbor. To že 90 percent html kóderov nesprávne používa HTML je už zase iný problém.
Re: Opravdové XHTML
Nemyslím. Celkem dost serverů mění MIME typ mezi HTML a XHTML podle klineta a podle toho, co pošle v hlavičkách Accept.
Re: Opravdové XHTML
Použitý Accept: „text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8“ – vzato z FF5.0 v základním nastavení. Zkusím prohodit a podívat se, jestli se to na výsledku nějak projeví, to je dobrý tip, díky.
Re: Opravdové XHTML
Původní hlavičky požadavků:
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:5.0) Gecko/20100101 Firefox/5.0 FirePHP/0.5
Accept-Language: cs,en-us;q=0.7,en;q=0.3
Accept-Encoding: gzip, deflate
Accept-Charset: windows-1250,utf-8;q=0.7,*;q=0.7
Při druhém pokusu jsem změnil pořadí text/html a application/xhtml+xml. Tipni si, kolik serverů z „TOP 371“ na to zareagovalo jiným MIME typem…
Re: Opravdové XHTML
42?
fakt netuším ;-)
Re: Opravdové XHTML
Žádný. Co jsem dělal špatně? Resp. jinak – máš po ruce nějaký příklad serveru, který mění MIME typ podle hlavičky Accept, na kterém bych to mohl ověřit?
Re: Opravdové XHTML
Asi si nedělal špatně nic. Tak před pěti lety to dělalo opravdu hodně serverů, pokud vím, tak i přímo http://www.w3.org. Nicméně jak tak teď koukám, už asi všichni pochopili, že to byla blbost, a servírují výhradně jako text/html. Tak sorry za mistifikaci a ztracený čas.
Re: Opravdové XHTML
Spočítal jsem, a výsledek je následující:
– Jeden server posílá MIME application/xhtml+xml a neuvádí XHTML DTD.
– Šest serverů uvádí XHTML DTD a posílá hlavičku xhtml+xml.
– Zbytek má pouze DTD a MIME typ text/html
Re: Opravdové XHTML
A co posílal klient v HTTP hlavičce
Accept
? Dá se zjistit, kolik serverů na její hodnoty reaguje?Re: Opravdové XHTML
Viz odpověď Jirkovi, to jestli servery reagují měřím právě teď.
Re: Opravdové XHTML
Díky za statistiku, jak jsem, psal na začátku, čekal jsem jiné výsledky. A jak zmínil Jirka Kosek, tak před zhruba pěti lety byla situace jiná, hodně serverů se posílalo vybraným prohlížečům application/xhtml+xml.
Re: Opravdové XHTML
Zase to tu srší samými odborníkmi :)
K veci, nie je nič tažšie ako do hlavičky vložiť:
Re: Opravdové XHTML
A co se tím změní?
Re: Opravdové XHTML
A čo tým chcel básnik povedať?
Re: Opravdové XHTML
A funguje to někde? Ve FF ne – na rozdíl o uvedení DOCTYPE (pak se XHTML zpracuje skutečně jako XHTML navzdory špatnému MIME typu v HTTP hlavičce).
Re: Opravdové XHTML
Teda od Vás jsem bludy nečekal. Rozhoduje pouze mime typ. Takže třebas takový Interval.cz se v prohlížečích naštěstí zpracovává jako HTML, přičemž jako XHTML by neprošel, protože kód není well-formed, což je, jak známo u XHTML nutná podmínka pro zpracování XML procesorem.
Re: Opravdové XHTML
Viz Mozilla’s DOCTYPE sniffing, co už jsem tu odkazoval.
„This document describes how Mozilla uses the DOCTYPE declaration to determine strict mode vs. quirks mode.“
Na základě Doctypů vyjmenovaných v tom dokumentu pak prohlížeč pracuje v „Full Standards Mode“. Nebo mluvíš o něčem jiném?
Re: Opravdové XHTML
Ano, mluví o něčem jiném. XHTML „by se mělo” zpracovávat jako XML, kdežto pokud se pošle jako text/html, tak se zpracovává jako HTML. Rozdílu mezi zpracováním jako HTML a XHTML je víc, připravil jsem demo dvou odlišností. V případě „opravdového XHTML” používám koncovku .xhtml, server pak pošle v hlavičce Content-Type: application/xhtml+xml, meta element je k ničemu.
Re: Opravdové XHTML
Až čumím, to je sila. Bubák ako jeden z mála prispievateľov, ktorí naozaj rozumejú tomu, o čom hovoria, tu má zošedené príspevky (kto všetko mu dal mínus?), a pán pseudoodborník Franta Kučera tu za svoje do očí bijúce bludy by bol na serióznejšej diskusii dávno skritizovaný tak, že by sa išiel zahrabať pod čiernu zem.
Človek by čakal, že v diskusii sa dozvie ďalšie užitočné informácie alebo upresnenia. Otras.
Re: Opravdové XHTML
Jaké bludy myslíš? Akorát jsem psal, že FF, pracuje v režimu platných standardů (a ne zpětné kompatibility) i na základě DOCTYPE uvnitř stránky a ne jen na základě HTTP hlavičky Content-Type.
Re: Opravdové XHTML
Jistě, ale bohužel tady nebyla řeč o DOCTYPE nebo režimu (ne)platných standardů. Dle mého laického názoru se cvrlikalo o rozdílu zpracování application/xhtml+xml a text/html. Ten první má správný prohlížeč parsovat jako XML, což je daleko přísnější než obyčejné HTML a občas velmi problematické (http://blog.ataxo.cz/article:xhtml-mime-typ).
Re: Opravdové XHTML
1) Projdi si prosím znovu moje komentáře a napiš, jestli něco z toho není pravda.
2) K tomu odkazu: příběh je to pěkný a podle mého dokazuje výhodnost „žluté obrazovky smrti“ – vždyť pomohla odhalit mnohem závažnější problém: nějaký všivák po cestě manipuluje s obsahem stránky. Když něco vygeneruji na serveru, tak chci, aby to přesně tak dorazilo ke klientovi – nechci na své stránce mít přepsané texty (třeba ceny nebo čísla účtů, to by bylo zajímavé…), vložené reklamy ani zmršené XHTML, ani nic jiného… část z toho pomůže odhalit XML parser. Ale daleko účinější je HTTPS – proto ho používám, kde to jen jde – tak se zajistí, že klient dostane to, co mu posílám, a ne nějaké blbosti, nad kterými nemám kontrolu.
3) Co se týče: „A dokud bude na světě jenom pár setinek promile…“ – to mi připomíná argumentaci typu „i kdyby to zachránilo jediný lidský život“.
Re: Opravdové XHTML
1) Jen říkám, že mluvíš o koze a zbytek lidí tady o voze :) Viz třeba komentář od blizze (nebo Timyho), zcela potvrzuje, co jsem si před pěti vteřinami ověřil. Doctype sniffing na tom nic nezměnil. Stránka hlásila, že je v režimu „plné podpory standardů“, ačkoliv to nebyl stejný způsob parsování jako u „pravého“ xhtml+xml MIME typu.
2) a 3) Jasně, však to byl taky asi první odkaz, na který jsem narazil a použil jsem ho jenom jako demostraci, že XML parsování je něco jiného než HTML. ;)
Re: Opravdové XHTML
Ja ti ukážem, čo nie je pravda:
„Ve FF ne – na rozdíl o uvedení DOCTYPE (pak se XHTML zpracuje skutečně jako XHTML navzdory špatnému MIME typu v HTTP hlavičce).“
Ak je v HTTP hlavičke „zlý“ MIME typ (text/html), XHTML sa nikdy nespracuje ako XHTML.
Re: Opravdové XHTML
Já ale od začátku psal o tom, že se použije „Režim platných standardů“.
Re: Opravdové XHTML
To ale vôbec nesúvisí s otázkou, či sa kód parsuje HTML alebo XML parserom – na to má vplyv jedine MIME typ. Táto stránka je tiež jedným z príkladov, keď sa použije „režim platných štandardov“, v doctype deklaruje XHTML a aj napriek tomu tento kód každý jeden prehliadač parsuje ako HTML.
Re: Opravdové XHTML
To zašednutí je věru nějaké pochybené – vidím zašedlé i naprosto neškodné příspěvky (třeba moje informace o tom, jaké hlavičky byly v měřeních použité). Poptám se u vývojářů, jestli tam není něco divného.
Re: Opravdové XHTML
Nešlo by spíš vývojářům říci, aby to zrušili úplně? Je to k něčemu dobré, že nějaká část příspěvků je zešedlá a já musím přejíždět přes příspěvek myší, abych ho mohl pohodlně přečíst? Úplně nejlepší je to pak na mobilních věcech, kde ani tou myší přes příspěvek přejet nemůžu… :)
Re: Opravdové XHTML
+1
(a tady jsou 4 znaky)
Podobné štatistiky pre slovenský web
Spravil som podobné štatistiky všetkých .sk domén. Okrem iných vecí sa snažím odhadnúť framework (čo nie je a nikdy nebude 100-percentné).
http://www.statistiky-domen.sk/
Po zlepšení detekcie frameworkov chcem preskúmať aj české domény, len sa budem musieť dostať k ich zoznamu.
Re: Podobné štatistiky pre slovenský web
Moc pěkné :-)
Kdy budou údaje pro ČR?
A chválím i za ty grafy (funkční bez Flashe).
Re: Podobné štatistiky pre slovenský web
ČR by som chcel spracovať do 2 mesiacov. Ale neviem, či sa dostanem k zoznamu domén.
Grafy sú riešené JS knižnicou Highcharts :)
Re: Podobné štatistiky pre slovenský web
Sľúbené štatistiky českých domén. Je ich tam cca 500k.
http://www.statscrawler.com/?tld=Czech
Nevelká odchylka...
… z 25+38% na 15+27% v jedné skupině a z 3+4% na 17+14% ve druhé. Tady někdo předvyplňuje přihlášku na ministra financí, že?!
P.S. ty subpixely v grafech vypadají příšerně i v nativu :-( . Fakt to nejde vypnout, nebo udělat v něčem slušnějším – třeba Gnumericu nebo VisiCalcu?