Přejít k navigační liště

Zdroják » Zprávičky » Anthropic otevřel svůj původní výkonový take‑home úkol veřejnosti

Anthropic otevřel svůj původní výkonový take‑home úkol veřejnosti

Zprávičky AI, Různé

Na GitHubu je volně dostupný repozitář Anthropic’s Original Performance Take‑Home, který obsahuje původní interní výkonový test, jaký Anthropic používal při hodnocení schopností optimalizace svých AI modelů.

O co jde:
Výzva spočívá v tom, aby vývojáři optimalizovali řešení úlohy tak, aby běželo co nejrychleji na simulovaném stroji měřeném v hodinových cyklech. Cílem je dosáhnout nižšího počtu cyklů než dosáhly modely Claude Opus 4.5, které repo obsahuje jako benchmark.

Benchmarky:

  • Claude Opus 4 po dlouhé optimalizaci ~2164 cyklů
  • Claude Sonnet 4.5 po dlouhé optimalizaci ~1548 cyklů
  • Nejlepší výkon Claude Opus 4.5 během vývoje: ~1487 cyklů
  • Dnešní nejlepší Opus 4.5: ~1363 cyklů
    Úkolem je překonat tyto výsledky.

Pro vývojáře:
Stačí naklonovat repozitář, implementovat vlastní řešení v submission.py a spustit testy přes python tests/submission_tests.py. Pokud vaše řešení překoná nejlepší výkon modelu, můžete ho poslat e‑mailem týmu Anthropic – firma naznačuje, že by tak mohla vzniknout i možnost pro recruiting či rozhovor.

Tento projekt nabízí otevřený „benchmark závod“ pro každého, kdo chce změřit a zlepšit své schopnosti v optimalizaci kódu.

Komentáře

Odebírat
Upozornit na
guest
0 Komentářů
Nejstarší
Nejnovější Most Voted
Inline Feedbacks
Zobrazit všechny komentáře

EmDash: Duchovní nástupce WordPressu, který řeší bezpečnost pluginů

Cloudflare přichází s ambiciózním projektem EmDash, který chce přepsat pravidla správy webového obsahu a nahradit dlouholetou dominanci WordPressu. Nový open source CMS, vytvořený za pouhé dva měsíce s pomocí AI, sází na moderní architekturu, důraz na bezpečnost i monetizaci a řeší klíčové problémy, které WordPress provázejí už desítky let.

Project Glasswing: Anthropic mění pravidla kybernetické bezpečnosti

AI
Komentáře: 0
Nový AI model Claude Mythos Preview dokáže autonomně nacházet bezpečnostní díry v každém hlavním operačním systému i prohlížeči – včetně zranitelností starých desítky let, které přežily miliony automatizovaných testů. Anthropic se rozhodl tuto schopnost nasadit jako nástroj obrany a svolal koalici dvanácti technologických gigantů – od Amazonu přes Microsoft až po JPMorganChase. Se závazkem 100 milionů dolarů a přístupem pro více než 40 organizací spravujících kritickou infrastrukturu je Project Glasswing závodem s časem: zajistit, aby obránci byli s těmito schopnostmi dřív než útočníci.

Git Worktree + Claude Code: paralelní vývoj a AI agenti ve více větvích najednou

Git worktree posouvá práci s větvemi na úplně jinou úroveň – místo neustálého přepínání a stashování nabízí paralelní pracovní prostředí nad jedním repozitářem. V kombinaci s nástroji jako Claude Code navíc otevírá dveře k běhu více AI agentů současně, každý izolovaně ve své větvi, bez kolizí a zbytečné režie.