Přejít k navigační liště

Zdroják » Zprávičky » Libo programátorský data mining? Data z GitHubu jsou na Google BigQuery

Libo programátorský data mining? Data z GitHubu jsou na Google BigQuery

Zprávičky Různé

Nálepky:

GitHub, populární služba na hostování GIT repozitářů, zpřístupnila svá data pomocí služby Google BigQuery. Můžete tak provádět data mining nad všemi veřejnými repozitáři s odezvou několik vteřin.

Služba je postavená na projektu Githubarchive­.org, který má vlastní API k získávání archivních dat pro statistické účely, a který archivuje všech 18 typů událostí, jež můžou na GitHubu u projektu nastat (push, fork, komentář commitu, stažení atd.)

Ta pravá legrace ovšem nastává při použití Google BigQuery, který umožňuje se pomocí SQL tohoto archivu dotazovat. Kupříkladu pomocí tohoto dotazu zjistíte, jak na tom bylo přispívání do jednotlivých projektů v tomto březnu napříč programovacími jazyky:

SELECT count(repository_name) as pushes, repository_language
FROM [publicdata:samples.github_timeline]
WHERE type="PushEvent"
    AND PARSE_UTC_USEC(created_at) >= PARSE_UTC_USEC('2012-03-01 00:00:00') AND PARSE_UTC_USEC(created_at) < PARSE_UTC_USEC('2012-04-01 00:00:00')
GROUP BY repository_language
ORDER BY pushes DESC
LIMIT 100

A tady je výsledek:

Záměnou PushEvent v SQL dotazu za další události můžete podobně získat žebříček počtu stažení ( DownloadEvent) nebo třeba sledování ( WatchEvent).

Výsledná data můžou být rozhodně zajímavá a pokud je nám známo, GitHub je první službou v historii, která podobná data veřejně zpřístupnila, navíc snadno zpracovatelným způsobem. Jistě, GitHub obsahuje jen vzorek všech programátorských projektů a účty na něm má jen zlomek programátorů, jedná se ovšem o službu dost populární na to, aby získaná data dávala nějaký smysl.

Příklady dalších šikovných dotazů najdete v dokumentaci projektu, níže pak najdete jednoduchou infografiku z dubnových dat, která byla publikována na GitHub blogu.

Komentáře

Odebírat
Upozornit na
guest
0 Komentářů
Nejstarší
Nejnovější Most Voted
Inline Feedbacks
Zobrazit všechny komentáře

Strategie a AI jako klíč. Do Prahy přijely špičky technologického světa

WebExpo 2025 ukázalo, jak se tvoří budoucnost. Třídenní technologická konference WebExpo 2025 přivedla do Prahy světové i české experty, kteří nabídli inspiraci napříč obory. Hlavním tématem byla propojenost disciplín, význam AI a potřeba otevřenosti vůči novým výzvám – včetně podpory legální imigrace. Ukázalo se, že inovace vznikají nejen v Silicon Valley, ale i tam, kde se nebojíme myslet jinak.

Přístupnost není jen o splnění norem: nový pohled na inkluzivní design

Přístupnost a inkluze možná nepatří mezi nejžhavější témata digitálního světa – dokud o nich nezačne mluvit Vitaly Friedman. Na WebExpo 2024 předvedl, že inkluzivní design není jen o splněných checkboxech, ale hlavně o lidech. S energií sobě vlastní obrátil zažité přístupy naruby a ukázal, že skutečně přístupný web je nejen možný, ale i nezbytný.

Efektivnější vývoj UI nebo API: Co si odnést z WebExpo 2025?

Různé
Komentáře: 0
Jak snadno implementovat moderní uživatelské rozhraní? Které funkce brzdí rychlost vašeho webu? A kdy raději sami přibrzdit, abychom využitím AI nepřekročili etické principy? Debatu aktuálních dev témat rozdmýchá sedmnáctý ročník technologické konference WebExpo, která proběhne v Praze od 28. do 30. května. Který talk či workshop si rozhodně nenechat ujít? Toto je náš redakční výběr z vývojářských hroznů.