Anthropic otevřel svůj původní výkonový take‑home úkol veřejnosti

Zdroják » Zprávičky » Anthropic otevřel svůj původní výkonový take‑home úkol veřejnosti

Nálepky:

Na GitHubu je volně dostupný repozitář Anthropic’s Original Performance Take‑Home, který obsahuje původní interní výkonový test, jaký Anthropic používal při hodnocení schopností optimalizace svých AI modelů.

O co jde:
Výzva spočívá v tom, aby vývojáři optimalizovali řešení úlohy tak, aby běželo co nejrychleji na simulovaném stroji měřeném v hodinových cyklech. Cílem je dosáhnout nižšího počtu cyklů než dosáhly modely Claude Opus 4.5, které repo obsahuje jako benchmark.

Benchmarky:

Claude Opus 4 po dlouhé optimalizaci ~2164 cyklů
Claude Sonnet 4.5 po dlouhé optimalizaci ~1548 cyklů
Nejlepší výkon Claude Opus 4.5 během vývoje: ~1487 cyklů
Dnešní nejlepší Opus 4.5: ~1363 cyklů
Úkolem je překonat tyto výsledky.

Pro vývojáře:
Stačí naklonovat repozitář, implementovat vlastní řešení v submission.py a spustit testy přes python tests/submission_tests.py. Pokud vaše řešení překoná nejlepší výkon modelu, můžete ho poslat e‑mailem týmu Anthropic – firma naznačuje, že by tak mohla vzniknout i možnost pro recruiting či rozhovor.

Tento projekt nabízí otevřený „benchmark závod“ pro každého, kdo chce změřit a zlepšit své schopnosti v optimalizaci kódu.

Adam Heglas

Student se zájmem o IT, programování a kybernetickou bezpečnost. Baví mě se učit novým věcem a posouvat své schopnosti dál. Když zrovna nesedím u kódu, věnuji se fitness a počítačovým hrám.

Komentáře

Odebírat

0 Komentářů

Nejstarší

Nejnovější Most Voted

Inline Feedbacks

Zobrazit všechny komentáře

Mistral Forge: když si firmy začnou stavět vlastní AI

Platforma Forge od Mistral AI ukazuje, kam se posouvá využití umělé inteligence ve firmách. Místo napojení na externí služby přináší možnost stavět vlastní AI modely nad interními daty a provozovat je pod plnou kontrolou - od trénování až po nasazení.

Nový Vite 8.0

Nová verze populárního build nástroje Vite přináší jednu z největších změn v historii projektu. Vite 8 přechází na nový Rust bundler Rolldown, který sjednocuje dosavadní build pipeline a podle vývojářů může výrazně zrychlit produkční buildy i práci s velkými frontendovými projekty.

Anthropic otevřel svůj původní výkonový take‑home úkol veřejnosti

Nálepky:

Adam Heglas

Komentáře

Mistral Forge: když si firmy začnou stavět vlastní AI

Válka frameworků skončila. A nemá vítěze

Nový Vite 8.0

Sledujte Zdroják:

Hádej co? Cookies!