Bug: Claude Code vyčerpá Pro Max kvótu za 1,5 hodiny
Uživatel molu0219 nahlásil na GitHubu závažnou chybu v Claude Code, která se týká nečekaně rychlého vyčerpání kvóty u předplatného Pro Max 5x.
Co se stalo?
Po resetu kvóty uživatel při středně náročném používání (zejména Q&A a lehký vývoj) vyčerpal celou kvótu během pouhých 1,5 hodiny. Pro srovnání, předchozí okno trvalo 5 hodin při výrazně intenzivnějším vývoji.
Pravděpodobná příčina
Investigace odhalila, že tokeny načtené z cache (cache_read_input_tokens) se pravděpodobně počítají plnou sazbou do rate limitu, místo očekávané desetinové sazby (1/10). To prakticky anuluje přínos prompt cachování pro účely kvóty.
Jinými slovy: uživatel si platí za výhodu cachování, ale pro účely limitu mu stejně odečítají jako by cache neexistovala.
Další přispívající faktory
Tři věci situaci dále zhoršují. Za prvé, pozadí sessiony – otevřené terminály s jinými Claude Code relacemi stále konzumovaly kvótu i bez aktivní interakce uživatele (v konkrétním případě až 78 % kvóty). Za druhé, auto-compact – při automatickém zhušťování kontextu dojde k jednomu API volání s plným kontextem (~966k tokenů), což vytvoří obrovský jednorázový spike. Za třetí, 1M kontextové okno problém zesiluje – čím větší kontext, tím více tokenů na každé volání.
Co uživatel navrhuje?
Mezi navrhovanými vylepšeními jsou: jasná dokumentace toho, jak se cache_read tokeny počítají do limitu, počítání cache_read tokenů sníženou sazbou (1/10) i pro rate limiting, detekce nečinných sessiony a zobrazení spotřeby tokenů v reálném čase přímo v Claude Code.