Anthropic otevřel svůj původní výkonový take‑home úkol veřejnosti

Zdroják » Zprávičky » Anthropic otevřel svůj původní výkonový take‑home úkol veřejnosti

Nálepky:

Na GitHubu je volně dostupný repozitář Anthropic’s Original Performance Take‑Home, který obsahuje původní interní výkonový test, jaký Anthropic používal při hodnocení schopností optimalizace svých AI modelů.

O co jde:
Výzva spočívá v tom, aby vývojáři optimalizovali řešení úlohy tak, aby běželo co nejrychleji na simulovaném stroji měřeném v hodinových cyklech. Cílem je dosáhnout nižšího počtu cyklů než dosáhly modely Claude Opus 4.5, které repo obsahuje jako benchmark.

Benchmarky:

Claude Opus 4 po dlouhé optimalizaci ~2164 cyklů
Claude Sonnet 4.5 po dlouhé optimalizaci ~1548 cyklů
Nejlepší výkon Claude Opus 4.5 během vývoje: ~1487 cyklů
Dnešní nejlepší Opus 4.5: ~1363 cyklů
Úkolem je překonat tyto výsledky.

Pro vývojáře:
Stačí naklonovat repozitář, implementovat vlastní řešení v submission.py a spustit testy přes python tests/submission_tests.py. Pokud vaše řešení překoná nejlepší výkon modelu, můžete ho poslat e‑mailem týmu Anthropic – firma naznačuje, že by tak mohla vzniknout i možnost pro recruiting či rozhovor.

Tento projekt nabízí otevřený „benchmark závod“ pro každého, kdo chce změřit a zlepšit své schopnosti v optimalizaci kódu.

Adam Heglas

Student se zájmem o IT, programování a kybernetickou bezpečnost. Baví mě se učit novým věcem a posouvat své schopnosti dál. Když zrovna nesedím u kódu, věnuji se fitness a počítačovým hrám.

Komentáře

Odebírat

0 Komentářů

Nejstarší

Nejnovější Nejvíce hlasů

Mýtus jedné aplikace: proč PWA nenahradí vývoj pro každou platformu

PWA mohou webu přidat ikonu na ploše, fungování bez připojení, notifikace a některé systémové funkce. Nejsou ale cestou k jednomu klientu pro všechny platformy. Vyplatí se tam, kde se lidé k webu vracejí a ocení okamžitý vstup z odkazu. Jakmile aplikace musí spolehlivě běžet na pozadí nebo fungovat stejně na každém zařízení, bývá vhodnější nativní řešení.

Anthropic vydává Claude Opus 5

Anthropic vydal Claude Opus 5 — model, který se má výkonem blížit špičkovému Fable 5 za poloviční cenu a míří hlavně na agentické kódování. Cena zůstává na 5/25 USD za milion tokenů, přibývají API novinky jako mid-conversation tool changes a automatické fallbacky.

Umělá inteligence práci nebere, vytváří nové profese

Každá technologická revoluce zatím skončila stejně. Část profesí zanikla, lidstvo chvíli panikařilo a pracovních míst nakonec přibylo. Umělá inteligence nebude výjimkou. Místo hromadné nezaměstnanosti nás čeká něco méně dramatického, zato mnohem náročnějšího: masivní stěhování lidí do profesí, které dnes ještě nemají ani název.

Anthropic otevřel svůj původní výkonový take‑home úkol veřejnosti

Nálepky:

Adam Heglas

Komentáře

Mýtus jedné aplikace: proč PWA nenahradí vývoj pro každou platformu

Anthropic vydává Claude Opus 5

Umělá inteligence práci nebere, vytváří nové profese

Sledujte Zdroják:

Hádej co? Cookies!