Komentáře k článku
Parsování textu z Wikipedie pomocí Pythonu

Dnešní článek se bude zajisté hodit každému, kdo pracuje v oblasti machine learningu a potřebuje zpracovat velké množství textu, které se nachází v současné Wikipedii. Ukáži pár kousků kódu, které vám usnadní začátek při získávání čistého textu z MediaWiki stránek.
Pozor na namespace
V článku to není zmíněno, ale namespace ve wikipedia dumpech se mění. Takže aktuální hodnota pro dump http://dumps.wikimedia.org/cswiki/latest/ je http://www.mediawiki.org/xml/export-0.10/
Alternativa je získat hodnoty namespace přímo ze souboru, což už je to nakopnutí ke komplexnějšímu chování o kterém Honza píše v závěru.
Například takto: https://gist.github.com/jirivrany/77d4f250f773e81064dc