AI stále selhává v jednoduchém logickém úkolu: test „Mytí auta“ odhaluje slabiny velkých modelů

Zdroják » Zprávičky » AI stále selhává v jednoduchém logickém úkolu: test „Mytí auta“ odhaluje slabiny velkých modelů

Nálepky:

Nedávno se na internetu rozšířil jednoduchý logický úkol, který má prověřit zdravý selský rozum u velkých jazykových modelů (LLM).

Prompt:
„Chci umýt auto. Myčka je 50 metrů daleko. Mám tam jít pěšky, nebo odvézt auto?“
Správná odpověď je nám zřejmá – auto musí být v myčce, takže je potřeba jet autem.

Platforma Opper.ai otestovala 53 předních AI modelů bez jakéhokoli systémového promptu – pouze s výběrem mezi „walk“ a „drive“ a polem pro vysvětlení.

Hlavní výsledky testu

42 z 53 modelů odpovědělo „jít pěšky“ při prvním dotazu – tedy chybnou odpověď
Pouze 11 modelů mělo správnou odpověď jednou.

Aby se prověřila konzistence, každý model byl dotázán 10×, celkem tedy 530 běhů:

5 modelů mělo 10/10 správných odpovědí: Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro a Grok-4.
GLM-5 a Grok-4-1 Reasoning měli 8/10, tedy 1 z 5 odpovědí byla špatná.
GPT-5 měl 7/10, což znamená, že 3 ze 10 běhů odpověděly špatně.
6/10 nebo méně mělo celkem 12 modelů
Zbylých 33 modelů nikdy neodpovědělo správně.

Lidská kontrolní skupina

Jako kontrolu experimentu zahrnuli výzkumníci i 10 000 lidí s tím samým jednoduchým výběrem. 71,5 % lidí zvolilo „jet autem“, tedy správnou odpověď. To teoreticky znamená, že GPT-5 má „nejlidštější odpověď“ – to samozřejmě berte s nadsázkou. :)

Co to ukazuje

Test, ačkoliv je logicky triviální, odhaluje potenciální slabinu u mnoha AI systémů: modely často upřednostňují heuristiku „50 metrů je krátká vzdálenost -> chůze“ místo pochopení skutečného cíle, a to dostat auto do myčky.

Podle Opper.ai to znamená, že bez cíleného kontextu nebo správného navádění mohou modely selhávat i v jednoduchých úlohách, což je varovné pro jejich nasazení ve skutečných aplikacích vyžadujících spolehlivé a konzistentní deduktivní myšlení.

Zdroj: https://opper.ai/blog/car-wash-test

Adam Heglas

Student se zájmem o IT, programování a kybernetickou bezpečnost. Baví mě se učit novým věcem a posouvat své schopnosti dál. Když zrovna nesedím u kódu, věnuji se fitness a počítačovým hrám.

Komentáře

Odebírat

0 Komentářů

Nejstarší

Nejnovější Most Voted

Co je nového v Gitu 2.55.0

Git 2.55.0 přináší šest zajímavých novinek – od dlouho očekávané podpory fsmonitoru na Linuxu, přes zjednodušení úprav historie commitů pomocí nového příkazu git history fixup, až po další krok v postupné integraci jazyka Rust do jádra Gitu. Přidává se i možnost pushovat do skupiny vzdálených repozitářů, omezit šířku grafu u git log --graph a zrychlit git grep a git cherry v částečných klonech.

Od statických stránek k edge computingu: Historie webových technologií za 30 let

Třicet let. Tak dlouho už web existuje v podobě, kterou bychom dnes alespoň zhruba poznali — od prvních statických dokumentů přes éru aplikací běžících v prohlížeči až po kód, který se spouští na stovkách míst po celém světě jen pár milisekund od uživatele. Tenhle příběh ale není jen suchým výčtem technologií a verzí. Je to příběh jednoho kyvadla, které se celé tři dekády houpe mezi serverem a klientem — a které právě teď nachází nový bod rovnováhy někde uprostřed, na okraji sítě.

Project-as-a-Service: platforma v Kubernetes může začít jedním YAML souborem

Interní platforma nemusí začít velkým vývojářským portálem. Příklad `opr-paas` ukazuje skromnější začátek: tým popíše projekt v YAML a platforma mu podle něj připraví namespacy, práva, kvóty, síťová pravidla i úklid dočasných prostředí. Samotný namespace ale tým v Kubernetes bezpečně neoddělí.

AI stále selhává v jednoduchém logickém úkolu: test „Mytí auta“ odhaluje slabiny velkých modelů

Nálepky:

Hlavní výsledky testu

Lidská kontrolní skupina

Co to ukazuje

Adam Heglas

Komentáře

Co je nového v Gitu 2.55.0

Od statických stránek k edge computingu: Historie webových technologií za 30 let

Project-as-a-Service: platforma v Kubernetes může začít jedním YAML souborem

Sledujte Zdroják:

Hádej co? Cookies!