Přejít k navigační liště

Zdroják » Webdesign » Strojové popisování obrázků – jak moc je přínosné pro uživatele?

Strojové popisování obrázků – jak moc je přínosné pro uživatele?

Články Webdesign

Se strojovým popisováním obrázků se setkáváme stále častěji. Podívejme se na proces z pohledu přístupnosti pro nevidomé uživatele.

Nálepky:

Text vyšel původně na webu autora.

Požadavek na definování smysluplné a výstižné textové alternativy grafickým prvkům, které nesou významovou informaci, patří mezi základní pilíře přístupnosti.

Stále více služeb a aplikací dnes nabízí svým uživatelům možnost strojového popisu obsahu obrázku. Tato tématika se opět dostala do popředí zájmu v souvislosti s nedávným výpadkem Facebooku (viz Výpadek Facebooku odhalil, jak síť strojově popisuje naše fotky) či postupnou integrací této funkcionality do nejpoužívanějších odečítačů obrazovky (funkce Picture Smart v JAWSu nebo Image Describer v NVDA), kdy ji uživatelé dostávají k dispozici doslova pod konečky prstů.

Zcela logicky se proto nabízí otázka, zda by strojový popis obrázků nemohl odlehčit těm, kdo vkládají na web obsah (co si budeme nalhávat, popsat několik set fotek, které je po skončení akce potřeba nahrát do fotogalerie, není úkol nijak triviální – popisky je jednak třeba vymyslet, jednak je potřeba vyhradit si nějaký čas na jejich doplnění k jednotlivým fotografiím).

Ačkoliv by se na první pohled mohlo zdát, že ano, klíčovým jsou zde ona přídavná jména smysluplná a výstižná.

Porovnejme si například popisky u následujícího příspěvku na Facebooku.

https://www.facebook.com/mathilda.cz/photos/a.1399378746980931/2294285180823612/?type=3

 

Zatímco autor příspěvku fotografii popsal slovy: Černý labrador Oscar sedí na peróně a čeká na vlak, který jej odveze na výlet, strojový popis obrázku vypadá následovně: Na obrázku může být: pes, boty, obloha, venku a příroda.

Na tomto příkladu je myslím dobře vidět, že strojové rozpoznávání je s přihmouřením obou očí momentálně dostačující k vytvoření si velmi hrubé představy o tom, co se asi na fotografii může nacházet. Popisek připravený člověkem je po stránce jeho kvality stále o několik řádů výše a poskytuje uživateli výstižnou informaci o tom, co se na fotografii nachází.

Pokud se budete chtít podívat, jaké popisky Facebook vkládá k vašim fotografiím (a případně je upravit), u konkrétní fotografie to můžete udělat přes Možnosti -> Změnit alternativní text.

Podobná situace nastává v případech použití optického rozpoznávání (OCR) či strojového překladu textu. Příkladem z posledně jmenované oblasti může být například nedávné zařazení seriálu Teorie velkého třesku se strojově přeloženými českými titulky do nabídky streamovací služby Netflix, kdy řada strojově přeložených pasáží moc nedávala smysl – více informací viz Strojový překlad nechceme! Fanoušci se bouří kvůli Teorii velkého třesku.

I přes výše zmíněné nedostatky si ale dokáži představit celou řadu případů použití v běžném životě, kdy strojové rozpoznávání (či překlad) může uživateli pomoci ve chvílích, kdy potřebuje získat aspoň nějakou informaci namísto žádné.

Stejně jako v jiných oblastech, i v této dochází k postupnému vylepšování používaných technologií. Jednou z posledních novinek je Cloudsight’s AI, který dokáže obsah obrazu rozpoznávat v reálném čase přímo v mobilním zařízení, viz video:

Závěr

Podobně jako u jiných funkcionalit založených na strojovém rozpoznávání a umělé inteligenci, i v případě strojového popisu obrázků je třeba mít na paměti omezení této služby. Pro vytvoření si velmi rámcové představy o obsahu obrázku je tato služba použitelná. Spolehnout se výhradně na strojový popis, který je mnohdy nepřesný až zavádějící, by proto byla chyba obzvláště u těch obrázků, u nichž uživatel potřebuje mít co nejpřesnější informace o tom, co obsahují.

Všude tam, kde je třeba uživateli nabídnout přesnou informaci o tom, co obrázek (či grafická předloha obecně) obsahuje, bude při přípravě popisků a alternativ hrát lidský mozek ještě nějaký čas nezastupitelnou roli.

Komentáře

Odebírat
Upozornit na
guest
0 Komentářů
Nejstarší
Nejnovější Most Voted
Inline Feedbacks
Zobrazit všechny komentáře

Prolog nezmizel. Jen dnes žije v jiných nástrojích

Prolog nezmizel. Jeho hlavní myšlenku dnes potkáváme v nástrojích, které se Prologu na první pohled nepodobají: v CodeQL pro analýzu kódu, v Rego pro policy-as-code, v Z3 pro práci s omezeními a v Leanu pro formální důkazy. Každý řeší jiný problém, ale všechny připomínají totéž: někdy je lepší popsat vztahy, pravidla, omezení nebo tvrzení než vrstvit další if.

Hermes místo OpenClaw?

AI
Komentáře: 2
Většina AI agentů v roce 2026 vám nabízí pohodlí výměnou za kontrolu — běží na cizí infrastruktuře, ukládají vaše data neznámo kam a fungují jen tak, jak je jejich tvůrci navrhli. Hermes od Nous Research jde opačným směrem: je open-source, nainstalujete si ho na vlastní server za pár dolarů měsíčně, připojíte k libovolnému LLM a necháte ho, aby si sám psal vlastní schopnosti podle toho, co od něj potřebujete. Výsledek? Agent, který skutečně patří vám a po pár týdnech používání rozumí vašemu setupu lépe než kterýkoli komerční asistent. Podívejme se, co Hermes umí, jak ho rozjet a pro koho dává smysl.

Robots.txt nestačí. AI crawleři mění, jak weby chrání obsah

Robots.txt zůstává základní signál pro slušné crawlery, ale už neumí popsat hlavní problém: stejný veřejný obsah může sloužit klasickému vyhledávání, AI odpovědím, tréninku modelů i načtení na pokyn uživatele. Provozovatel webu proto musí oddělit účel přístupu, ověřovat identitu botů, měřit dopad na infrastrukturu a u hodnotného obsahu řešit i vynucení pravidel mimo samotný robots.txt.