Přejít k navigační liště

Zdroják » Zprávičky » Anthropic otevřel svůj původní výkonový take‑home úkol veřejnosti

Anthropic otevřel svůj původní výkonový take‑home úkol veřejnosti

Zprávičky AI, Různé

Na GitHubu je volně dostupný repozitář Anthropic’s Original Performance Take‑Home, který obsahuje původní interní výkonový test, jaký Anthropic používal při hodnocení schopností optimalizace svých AI modelů.

O co jde:
Výzva spočívá v tom, aby vývojáři optimalizovali řešení úlohy tak, aby běželo co nejrychleji na simulovaném stroji měřeném v hodinových cyklech. Cílem je dosáhnout nižšího počtu cyklů než dosáhly modely Claude Opus 4.5, které repo obsahuje jako benchmark.

Benchmarky:

  • Claude Opus 4 po dlouhé optimalizaci ~2164 cyklů
  • Claude Sonnet 4.5 po dlouhé optimalizaci ~1548 cyklů
  • Nejlepší výkon Claude Opus 4.5 během vývoje: ~1487 cyklů
  • Dnešní nejlepší Opus 4.5: ~1363 cyklů
    Úkolem je překonat tyto výsledky.

Pro vývojáře:
Stačí naklonovat repozitář, implementovat vlastní řešení v submission.py a spustit testy přes python tests/submission_tests.py. Pokud vaše řešení překoná nejlepší výkon modelu, můžete ho poslat e‑mailem týmu Anthropic – firma naznačuje, že by tak mohla vzniknout i možnost pro recruiting či rozhovor.

Tento projekt nabízí otevřený „benchmark závod“ pro každého, kdo chce změřit a zlepšit své schopnosti v optimalizaci kódu.

Komentáře

Odebírat
Upozornit na
guest
0 Komentářů
Nejstarší
Nejnovější Most Voted

Frugal computing: architektura pro dobu dražší infrastruktury

Vývojáři se naučili zrychlovat dotazy, přidávat cache, škálovat služby a hlídat účet za cloud. Frugal computing začíná o jednu otázku dřív: musí se výpočet, přesun dat, volání modelu nebo uložení vůbec stát? Rostoucí spotřeba datových center a nové evropské reportování ho posouvají do návrhu architektury, dřív než do závěrečné poznámky o udržitelnosti v prezentaci.

Odysseus: PewDiePie vydal open-source AI workspace, který běží na vašem vlastním hardwaru

AI
Komentáře: 0
Felix Kjellberg, youtuber se 110 miliony odběratelů, strávil rok učením se programovat a fine-tuningem vlastních AI modelů. Výsledkem je Odysseus – bezplatný, open-source workspace pro práci s umělou inteligencí, který neposílá žádná data do cloudu. Projekt má týden, přes 61 000 hvězdiček na GitHubu a znovu otevírá otázku, komu vlastně patří váš digitální kontext.

Když Git už nestačí: jak izolovat databázový stav pro pokusy AI agentů

Gitová větev vývojářům oddělí kód, ale databáze často zůstává společná. U AI agentů je to slabé místo: rychle spouštějí migrace, mění data a zkoušejí víc cest najednou. Databázová větev jim dá vlastní pracovní prostor, jenže tím práce nekončí. Ještě je potřeba řešit citlivá data, oprávnění, životnost větve i zbytek stavu aplikace.