Přejít k navigační liště

Zdroják » Zprávičky » AI stále selhává v jednoduchém logickém úkolu: test „Mytí auta“ odhaluje slabiny velkých modelů

AI stále selhává v jednoduchém logickém úkolu: test „Mytí auta“ odhaluje slabiny velkých modelů

Zprávičky AI

Nálepky:

Nedávno se na internetu rozšířil jednoduchý logický úkol, který má prověřit zdravý selský rozum u velkých jazykových modelů (LLM).

Prompt:
„Chci umýt auto. Myčka je 50 metrů daleko. Mám tam jít pěšky, nebo odvézt auto?“
Správná odpověď je nám zřejmá – auto musí být v myčce, takže je potřeba jet autem.

Platforma Opper.ai otestovala 53 předních AI modelů bez jakéhokoli systémového promptu – pouze s výběrem mezi „walk“ a „drive“ a polem pro vysvětlení.

Hlavní výsledky testu

  • 42 z 53 modelů odpovědělo „jít pěšky“ při prvním dotazu – tedy chybnou odpověď
  • Pouze 11 modelů mělo správnou odpověď jednou.

Aby se prověřila konzistence, každý model byl dotázán 10×, celkem tedy 530 běhů:

  • 5 modelů mělo 10/10 správných odpovědí: Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro a Grok-4.
  • GLM-5 a Grok-4-1 Reasoning měli 8/10, tedy 1 z 5 odpovědí byla špatná.
  • GPT-5 měl 7/10, což znamená, že 3 ze 10 běhů odpověděly špatně.
  • 6/10 nebo méně mělo celkem 12 modelů
  • Zbylých 33 modelů nikdy neodpovědělo správně.

Lidská kontrolní skupina

Jako kontrolu experimentu zahrnuli výzkumníci i 10 000 lidí s tím samým jednoduchým výběrem. 71,5 % lidí zvolilo „jet autem“, tedy správnou odpověď. To teoreticky znamená, že GPT-5 má „nejlidštější odpověď“ – to samozřejmě berte s nadsázkou. :)

Co to ukazuje

Test, ačkoliv je logicky triviální, odhaluje potenciální slabinu u mnoha AI systémů: modely často upřednostňují heuristiku „50 metrů je krátká vzdálenost -> chůze“ místo pochopení skutečného cíle, a to dostat auto do myčky.

Podle Opp­er.ai to znamená, že bez cíleného kontextu nebo správného navádění mohou modely selhávat i v jednoduchých úlohách, což je varovné pro jejich nasazení ve skutečných aplikacích vyžadujících spolehlivé a konzistentní deduktivní myšlení.

Zdroj: https://opper.ai/blog/car-wash-test

Komentáře

Odebírat
Upozornit na
guest
0 Komentářů
Nejstarší
Nejnovější Most Voted

Odysseus: PewDiePie vydal open-source AI workspace, který běží na vašem vlastním hardwaru

AI
Komentáře: 0
Felix Kjellberg, youtuber se 110 miliony odběratelů, strávil rok učením se programovat a fine-tuningem vlastních AI modelů. Výsledkem je Odysseus – bezplatný, open-source workspace pro práci s umělou inteligencí, který neposílá žádná data do cloudu. Projekt má týden, přes 61 000 hvězdiček na GitHubu a znovu otevírá otázku, komu vlastně patří váš digitální kontext.

Když Git už nestačí: jak izolovat databázový stav pro pokusy AI agentů

Gitová větev vývojářům oddělí kód, ale databáze často zůstává společná. U AI agentů je to slabé místo: rychle spouštějí migrace, mění data a zkoušejí víc cest najednou. Databázová větev jim dá vlastní pracovní prostor, jenže tím práce nekončí. Ještě je potřeba řešit citlivá data, oprávnění, životnost větve i zbytek stavu aplikace.

GitHub vyhrál pohodlím. Stejné pohodlí dnes ztěžuje odchod

GitHub kdysi působil jako přesný opak SourceForge: rychlý, přehledný a přirozený. Dnešní projekt na něm ale často nemá jen kód. Má tam issues, pull requesty, CI, balíčky, bezpečnostní pravidla i AI agenty. Lock-in nevzniká tím, že by nešel odnést Git repozitář, ale tím, že se běžný provoz týmu postupně přesune do jedné platformy.