Cloudflare spustil nový /crawl endpoint pro automatické procházení webů
Nálepky:
Cloudflare oznámil, že služba Browser Rendering nyní obsahuje nový endpoint /crawl, který umožňuje procházet (crawlovat) celý web jediným API voláním. Tento nástroj je nyní dostupný v otevřené beta verzi pro uživatele s bezplatnými i placenými plány.
Co umí /crawl:
• Stačí poslat URL startovní stránky a Cloudflare automaticky objeví a zpracuje všechny stránky webu, včetně renderování JavaScriptu.
• Výsledky lze získat ve formátech HTML, Markdown nebo strukturovaném JSON.
• Automatické objevování stránek funguje přes sitemapu i odkazy na stránkách.
• Podporuje Incremental crawling – zpracuje jen nově změněné stránky, což šetří čas a prostředky.
• Je možné nastavit hloubku procházení, limity stránek nebo zahrnutí/vyloučení určitých cest.
• /crawl respektuje pravidla robots.txt, včetně crawl-delay, takže neprochází stránky, které to výslovně zakazují.
Jak to funguje:
- Pošlete POST žádost s URL – API vrátí job ID.
- Pomocí GET pak můžete získat stav nebo výsledky zpracování.
Příklad:
# Initiate a crawl
curl -X POST 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl' \
-H 'Authorization: Bearer <apiToken>' \
-H 'Content-Type: application/json' \
-d '{
"url": "https://blog.cloudflare.com/"
}'
# Check results
curl -X GET 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl/{job_id}' \
-H 'Authorization: Bearer <apiToken>'Code language: PHP (php)
Původní zpráva: https://developers.cloudflare.com/changelog/post/2026-03-10-br-crawl-endpoint/