Libo programátorský data mining? Data z GitHubu jsou na Google BigQuery

Zdroják » Zprávičky » Libo programátorský data mining? Data z GitHubu jsou na Google BigQuery

Nálepky:

GitHub, populární služba na hostování GIT repozitářů, zpřístupnila svá data pomocí služby Google BigQuery. Můžete tak provádět data mining nad všemi veřejnými repozitáři s odezvou několik vteřin.

Služba je postavená na projektu Githubarchive.org, který má vlastní API k získávání archivních dat pro statistické účely, a který archivuje všech 18 typů událostí, jež můžou na GitHubu u projektu nastat (push, fork, komentář commitu, stažení atd.)

Ta pravá legrace ovšem nastává při použití Google BigQuery, který umožňuje se pomocí SQL tohoto archivu dotazovat. Kupříkladu pomocí tohoto dotazu zjistíte, jak na tom bylo přispívání do jednotlivých projektů v tomto březnu napříč programovacími jazyky:

SELECT count(repository_name) as pushes, repository_language FROM [publicdata:samples.github_timeline] WHERE type="PushEvent" AND PARSE_UTC_USEC(created_at) >= PARSE_UTC_USEC('2012-03-01 00:00:00') AND PARSE_UTC_USEC(created_at) < PARSE_UTC_USEC('2012-04-01 00:00:00') GROUP BY repository_language ORDER BY pushes DESC LIMIT 100

A tady je výsledek:

Záměnou PushEvent v SQL dotazu za další události můžete podobně získat žebříček počtu stažení ( DownloadEvent) nebo třeba sledování ( WatchEvent).

Výsledná data můžou být rozhodně zajímavá a pokud je nám známo, GitHub je první službou v historii, která podobná data veřejně zpřístupnila, navíc snadno zpracovatelným způsobem. Jistě, GitHub obsahuje jen vzorek všech programátorských projektů a účty na něm má jen zlomek programátorů, jedná se ovšem o službu dost populární na to, aby získaná data dávala nějaký smysl.

Příklady dalších šikovných dotazů najdete v dokumentaci projektu, níže pak najdete jednoduchou infografiku z dubnových dat, která byla publikována na GitHub blogu.

Martin Hassman

Martin Hassman založil a řadu let vedl magazín Zdroják, absolvoval VŠCHT Praha, pořádal řadu konferencí, pomáhal s rozšířením otevřených technologií, byl u založení projektů CZilla, Dáme roušky a dalších. Vymyslel a dva roky vedl dobrovolnický projekt Movapp pod Česko.Digital. Nyní pracuje jako produktový manažer v datové platformě Golemio.cz.

Komentáře

Odebírat

0 Komentářů

Nejstarší

Nejnovější Nejvíce hlasů

Jak Bun přepsali ze Zigu do Rustu – a proč to zvládl z velké části Claude

Přepsat více než půl milionu řádků kódu do jiného jazyka by ještě nedávno znamenalo měsíce až roky práce. Tvůrce runtime Bun to ale zvládl během jedenácti dnů s pomocí Claude Code. Jak takový přepis probíhal a co vypovídá o budoucnosti vývoje softwaru?

AI generované plakáty zaplavují svět. Připomínají Comic Sans v devadesátkách

Vygenerovat plakát dnes zvládne každý za třicet vteřin. Výsledky visí na sloupech, plavou v našich feedech a lepí se na výlohy pizzerií. Něco podobného jsme už jednou zažili – když se v devadesátých letech dostal desktop publishing do rukou mas a svět zaplavil Comic Sans. Co nám tahle historická paralela říká o budoucnosti grafického designu?

Libo programátorský data mining? Data z GitHubu jsou na Google BigQuery

Nálepky:

Martin Hassman

Komentáře

Jak Bun přepsali ze Zigu do Rustu – a proč to zvládl z velké části Claude

Miliony lidí programují v Excelu. Jen tomu tak neříkají

AI generované plakáty zaplavují svět. Připomínají Comic Sans v devadesátkách

Sledujte Zdroják:

Hádej co? Cookies!