Popis obrázkov prostredníctvom AI je trendom najmä v mobilných aplikáciách. Pre čítač NVDA máme k dispozícii zatiaľ len doplnok s názvom AI Content Describer. Ako sa s ním pracuje?
Na uvedenie doplnku do funkčného stavu budete potrebovať používateľské skúsenosti a trošku trpezlivosti. Za postup ďakujem spoluautorovi tohto článku, môjmu kamarátovi a kolegovi Lukášovi Hosnedlovi, ktorý okrem toho, že je odborníkom na prístupnosť, je nadšencom aj do hier a autorom blogu 4Sense Gaming.
Inštalácia a spustenie
Ai Content Describer nainštalujete buď z oficiálneho repozitára doplnkov pre NVDA, alebo od verzie 2023.2 z Katalógu s doplnkami – NVDA > Nástroje > Katalóg s doplnkami. Detailný postup inštalácie doplnkov nájdete napríklad v mojom predchádzajúcom článku Ako na dotykové ovládanie pomocou čítača NVDA.
Aby doplnok správne fungoval, je potrebné získať API kľúč a predplatiť si akoby kredit, z ktorého sa pri každom rozpoznaní určitá čiastka strhne.
Jazykové modely
Po aktualizácii v máji 2024 pribudli do doplnku viaceré jazykové modely, z ktorých si po získaní API kľúča môžete vyberať. Nájdete ich v NVDA > Možnosti > Nastavenia > AI Content Describer pod tlačidlom Manage models.
- GPT4 Vision – ten je v súčasnosti využívaný a k nemu sa vzťahuje aj postup na získanie API kľúča.
- GPT4 Turbo – je vylepšená verzia GPT4 Vision.
- Google Gemini Pro Vision – je zlepšený jazykový model vyvíjaný spoločnosťou Google ešte nedávno známy ako Bard. Z mojich osobných skúseností podáva oveľa kvalitnejší výstup ako ChatGPT.
- Claude 3 Haiku – najrýchlejší a najkompaktnejší model od Anthropic pre takmer okamžitú odozvu (aspoň to sa píše v popisku jazykového modelu. Nemám ho osobne vyskúšaný.)
- Claude 3 Connect – vraj najlepší model pre podniky s ideálnym pomerom medzi inteligenciou a odozvou.
- Claude 3 Opus – najvýkonnejší model od Anthropicu určený pre zložité úlohy.
- LLAMA.cpp – je jazykový model, ktorý musíte rozbehať lokálne u vás na počítači a v súčasnosti ho vývojár označuje ako nestabilný.
Mojou ambíciou je, aby do článku postupom času pribudli postupy na získanie API kľúča pre každý jazykový model, ale to chce čas.
ChatGPT 4 Vision
Secret API Key
- Otvoríte si v prehliadači web platform.openai.com a tu kliknete na tlačidlo Login.
- Ponúkne vám viacero možností prihlásenia. Stránka je dostatočne prístupná, všetky dôležité tlačidlá a formulárové polia majú zrozumiteľné popisy a dajú sa ovládať z klávesnice.
- Pokiaľ chcete, môžete kliknúť na tlačidlo Continue with Google, respektíve Microsoft alebo Apple. Tým pádom sa k platforme OpenAI budete prihlasovať svojým používateľským účtom u daného poskytovateľa. Samozrejme, je otázkou osobnej preferencie každého používateľa, kto dá väčší dôraz na pohodlie a kto na súkromie. Všetky varianty sú v každom prípade rovnako bezpečné.
- Ak ste sa rozhodli prihlasovať svojím účtom u niektorého zo svetových technologických gigantov, budete musieť iba potvrdiť svoju totožnosť (zadaním hesla alebo pomocou dvojfaktorovej autentifikácie) a povoliť aplikácii OpenAI prístupové práva. Tento postup sa pochopiteľne líši podľa zvoleného typu účtu, ktorým ste sa rozhodli prihlasovať. Ale v princípe je pri všetkých typoch účtov podobný.
- Pri klasickom prihlásení e-mailom a heslom záleží na tom, či ste si v minulosti už vytvorili používateľský účet priamo v OpenAI napríklad kvôli ChatGPT. Pokiaľ áno, stačí do príslušného poľa vyplniť svoj e-mail a aktivovať tlačidlo s popisom Continue bez názvu niektorej externej spoločnosti. Na ďalšej stránke potom podobným spôsobom vyplníte a potvrdíte ešte svoje heslo. Ak v OpenAI účet nemáte, stačí kliknúť na odkaz Sign up a vyplniť a potvrdiť prístupným spôsobom registračný formulár.
- V ďalšom kroku by ste sa mali dostať na stránku s názvom Overview – OpenAI API (https://platform.openai.com/docs/overview). Tu kliknete na odkaz API keys.
- Na otvorenej stránke aktivujete tlačidlo Create new secret key.
- V dialógu, ktorý sa objaví, môžete do políčka Name uviesť nejaký názov, prostredníctvom ktorého budete rozlišovať účel API kľúča (Lukáš vo svojom prípade vyplnil "NVDA image describer"). Prepínač Permissions ponecháte v predvolenej polohe All. Nakoniec kliknete na tlačidlo Create secret key.
- Ďalej sa objaví stránka s políčkom iba na čítanie, v ktorom máte svoj novo vytvorený API kľúč. Je potrebné ho skopírovať do schránky. Najjednoduchšie to dosiahnete aktivovaním tlačidla Copy hneď pod týmto poľom.
- Skopírovaný kľúč potom vložíte do poľa OpenAI API key v nastaveniach doplnku AI Content Describer: Ponuka NVDA > Možnosti > Nastavenia > záložka AI Content Describer > prvé editačné pole v záložke. Nakoniec na stránke API Keys – OpenAI API kliknete na tlačidlo Done.
Kúpa kreditu
Ako som spomenula vyššie, aby doplnok správne fungoval, je potrebné si zakúpiť "kredit", z ktorého sa pri každom úspešnom, ale aj neúspešnom pokuse o rozpoznanie a opis obrázka strhne určitá čiastka. Doplnok bude fungovať, kým budete mať dostatok kreditu.
- Na webe OpenAI API sa presuňte na stránku Usage. Tu uvidíte skôr neprístupný graf financií, ktoré ste na účet vložili v minulosti, resp. kredit, ktorý ste si kúpili. Ďalej tu nájdete výšku zostávajúceho kreditu a jeho platnosť. Prístupnejším spôsobom tieto informácie zistíte v prvej tabuľke na stránke.
- Pri dokupovaní kreditu kliknete na stránke Usage na odkaz Increase limit > Buy credits.
- Tu uvidíte pod nadpisom Pay as you go zrozumiteľne uvedené, koľko kreditu vám ešte zostáva.
- Ak kupujete kredit prvý raz, čo budete musieť urobiť bezprostredne po získaní API kľúča, aby doplnok AI Content Describer mohol fungovať, aktivujete tlačidlo Add payment method, pokiaľ je dostupné. Ak nie je, najprv aktivujete odkaz Add or change payment method, až potom sa objaví príslušné tlačidlo.
- V záverečnom dialogu už budete do klasického formulára s prístupnými poľami zadávať údaje svojej platobnej karty. Okrem platobných údajov je potrebné povinne a pravdivo vyplniť ešte pole Name on card, inak sa môže stať (v závislosti na vašej banke a ich interných procesoch), že vám kartu pre túto platbu neschváli.
- Ostatné osobné údaje (adresu atď.) môžete vyplniť v podstate ľubovoľným textom. Ako píše Lukáš:
Můžete zde být i kreativní a vyjádřit vyplněnými údaji, co si myslíte o tom, že tato platební brána jich chce sbírat tolik, pokud chcete. Pro mě osobně je to docela oblíbená forma zábavy a rebelie. ☺
- Na stránke Billing overview, na ktorú sa dostanete odkazom Buy credits, si následne môžete cez tlačidlo Enable autorecharge prípadne nastaviť automatické dokupovanie kreditu o preddefinovanú čiastku, ak sa priblížite k jeho vyčerpaniu. Ak budete chcieť v budúcnosti kredit dokupovať radšej ručne a už ste predtým pridali nejakú platobnú metódu a aspoň raz si úspěšne kúpili kredit, bude stačiť kliknúť na tlačidlo Add to credit balance.
Nastavenia AI Content Describer
Po inštalácii je vhodné pozrieť si nastavenia doplnku cez NVDA > Možnosti > Nastavenia > Ai Content Describer.
- Manage Models – tu si šípkou dolu vyberáte jazykový model, ktorý chcete používať. Po stlačení Tabu na niektorom z nich sa dostanete do nastavení toho ktorého modelu:
- API Key – editačné políčko, kam vložíte získaný kľúč.
- Prompt – pokyn, na základe ktorého doplnok popíše obrázok. Je možné ho z angličtiny prepísať do slovenčiny, potom dostanete priamo opis v slovenskom jazyku. Po reštarte NVDA však prompt bude opäť v angličtine.
- Reset prompt to default – týmto vrátite prompt do pôvodnej podoby, ako bol pri inštalácii.
- Maximum tokens – vhodné je nastaviť aspoň 1000. Tým zabezpečíte, že odpoveď od AI nebude odseknutá, pretože pri doplnkoch tohto typu nemôžete klásť doplňujúce otázky.
- Seconds to wait for a response before timing out – koľko sekúnd má doplnok čakať pred tým, ako uplynie časový limit a popis bude neúspešný – vhodné je nastaviť aspoň 30 sekúnd a aj tento limit je často krátky.
- Open each result in browseable dialog – pomocou tohto začiarkavacieho políčka určujete, či sa popis obrázku otvorí v dialógovom okne, ktoré si môžete prezerať. Odporúčam vzhľadom na rozsiahlosť popisu.
- Remember/cache descriptions of each item to save API quota – zapamätanie / uloženie popisu každej položky do vyrovnávacej pamäte , aby sa ušetrila kvóta API – toto políčko je vhodné začiarknuť.
- Optimize images for size, may speed up detection in some situations (experimental) – experimentálna funkcia, kedy sa AI Content Describer pokúsi optimalizovať veľkosť obrázka, čo môže zrýchliť popis.
Predvolené a namapovateľné klávesové skratky
Doplnok disponuje niekoľkými predvolenými skratkami:
- NVDA+SHIFT+I – otvára menu doplnku.
- NVDA+SHFIT+J – slúži na rozpoznanie, či je vaša tvár v zábere.
- NVDA+SHIFT+U – popis aktuálne zameraného navigačného objektu.
- NVDA+SHIFT+Y – popis obrázku skopírovaného v schránke buď ako celý súbor, alebo cesty k nemu.
K ďalším akciám si skratky môžete definovať sami:
- opísať aktuálne zameraný objekt,
- zhotoviť obrázok pomocou vybranej kamery a popísať ho,
- Urobiť screenshot a následne ho opísať.
Ako namapovať klávesové skratky si prečítate v článku Ako na vlastné klávesové skratky v NVDA.
Ako to funguje
V podstate je veľmi jednoduché s doplnkom pracovať. Po nainštalovaní, sprevádzkovaní a nastavení stačí stlačiť skratku NVDA+SHIFT+i a z kontextovej ponuky vybrať jednu možnosť:
- Entire screen – popis celej obrazovky,
- Current focus – aktuálne zameranie,
- Navigator object – navigačný objekt, využijete, ak sa potrebujete pohybovať pomocou objektovej navigácie.
- Take a picture – pomocou webkamery alebo kamery notebooku urobíte záber a ten si necháte popísať.
- Face detection – rozpozná napríklad pri video meetingu, kde sa nachádza vaša tvár, aby ste sa pozerali priamo do kamery.
Výsledok popisu sa otvorí v dialógu, kde si popis môžete prezerať a pracovať s textom štandardným spôsobom.
Nižšie uvádzam rozdiely v popise po zvolení jednotlivých položiek. Pre popis použijem pracovnú plochu môjho počítača.
Entire screen – celá obrazovka
Tento obrázok zobrazuje plochu počítača s operačným systémom Windows. Pracovná plocha má množstvo ikon roztrúsených po obrazovke, ktoré predstavujú kombináciu softvérových aplikácií a pomôcok z rôznych kategórií, ako sú prehliadače (napr. Firefox, Chrome), prehrávače médií (napr. VLC media player, Audacity), produktivita a kancelária. aplikácie (napr. Google Meet, Tabuľky, PowerPoint, Excel, Word), nástroje na správu súborov (napr. Total Commander, WinRAR), komunikačné platformy (napr. Zoom, AnyDesk, Thunderbird) a rôzne ďalšie vrátane antivírusového softvéru (napr. ESET Ochrana pri platbách), aplikácia podcast (Podcast Grover), utilita pre vzdialenú plochu (AnyDesk) a služba zdieľania súborov (OneDrive).
Niekoľko ikon je označených v iných jazykoch ako v angličtine, čo znamená viacjazyčné používateľské nastavenie alebo aplikácie špecifické pre miestne nastavenie. Panel úloh v spodnej časti obrazovky zobrazuje pripnuté aplikácie, ponuku Štart, funkciu vyhľadávania a systémovú lištu s časom, dátumom, stavom siete a ďalšími systémovými ikonami. Dátum na systémovej lište ukazuje „28. 2. 2024“ a hodiny ukazujú, že čas je 12:00. Zdá sa, že systém používa prispôsobenú farbu panela úloh a predvolené čierne pozadie pracovnej plochy.
Rozlíšenie obrazovky sa zdá byť široké, pravdepodobne 1920 x 1080 alebo vyššie, ako naznačuje pomer strán obrazu.
Jedinú výhradu mám proti tomu, že by ikony boli roztrúsené. No dovoľ, AI! Moje ikony sú pekne poukladané v mriežke ešte aj podľa abecedy. 😊
Current focus – aktuálne zameranie
Kurzor je na ikonke prehliadača Google Chrome.
Obrázok je malá ikona pre webový prehliadač Google Chrome. Je to štvorec so zaoblenými rohmi so štylizovaným znázornením loga Chrome v strede. Logo pozostáva z modrého kruhu s menším bielym kruhom v strede, ktorý je obklopený červeným, žltým a zeleným vírom, ktorý sa otáča okolo modrej a pripomína točiaci sa alebo obiehajúci efekt. Pod logom je malý tieň, ktorý dodáva pocit hĺbky. Ikona má prerušovaný okraj, čo naznačuje, že ide o voliteľný prvok rozhrania, prípadne skratku na pracovnej ploche alebo tlačidlo v používateľskom rozhraní.
Navigator object – navigačný objekt
Kurzor ostal stále na Google Chrome, ale navigačný fokus som premiestnila na VLC media player.
Na obrázku je ikona prehrávača médií VLC. Pozostáva z bieleho a oranžového dopravného kužeľa s modrou šípkou smerujúcou nahor na pravej strane. Pod kužeľom je čiernym písmom text „VLC media player“. Tento obrázok sa zvyčajne používa ako ikona skratky na pracovnej ploche na otvorenie programu VLC, čo je populárny, bezplatný a otvorený prehrávač médií, ktorý dokáže prehrávať rôzne formáty zvuku a videa.
Take a picture
Po zhotovení záberu pomocou kamery sa doplnok pokúsi opísať, čo ste vyfotili. Funguje to dobre. Len pri prvom pokuse musíte vybrať kameru a povoliť doplnku prístup k nej. Následne po zopakovaní akcie už všetko funguje tak, ako má.
Skúšala som vyfotiť seba aj miestnosť, kde som sa nachádzala, a podarilo sa to. Dokonca bol ochotný popísať aj mňa ako človeka, čomu sa väčšinou vyhýba.
Face Detection
Slúži na rozpoznanie tváre v prípade videohovoru. Viete si tak overiť, či sa pozeráte priamo do kamery a ako vás vidia ostatní účastníci.
V prvom kroku odporúčam vybrať kameru cez položku Select Camera a dialóg potvrdiť tlačidlom OK.
Následne znovu otvorte menu doplnku a vyberte Face Detection > Detect Face Position. Doplnok v angličtine oznámi, v akej polohe voči vycentrovaniu sa vaša tvár nachádza.
Ak je vaša tvár priamo v zábere, budete počuť niečo ako face clearly in view.
Na rozpoznávanie tváre nemusíte otvárať menu doplnku, stačí stlačiť klávesovú skratku NVDA+SHIFT+J.
<
article id=“end“>
Záver
AI Content Describer je užitočný doplnok, ktorý sprostredkuje opis obrázkov pomocou umelej inteligencie. Samozrejme, vždy je potrebné brať ohľad na to, že si AI môže vymýšľať a ak je to možné, v každom prípade je lepšie uprednostniť popis obrázkov od „živej inteligencie“, teda človeka. Aby ste si urobili predstavu o grafike, to ale úplne a plnohodnotne stačí.
Po aktualizácii v máji 2024 pribudli okrem ďalších jazykových modelov aj dve veľmi užitočné funkcie – vyfotenie a rozpoznanie záberu pomocou webkamery vášho počítača a rozpoznanie tváre.
Ak sa chcete niečo spýtať, píšte na Facebooku, e-mailom alebo do komentárov pod článkom. Už v piatok 1. marca vyjde (aspoň dúfam) ďalšie vydanie newslettera, tak sa nezabudnite prihlásiť na odber.
<a href=“Podpora sa cení
3 odpovede na “AI Content Describer – umelá inteligencia pre NVDA”
Dobrý den, myslím že i když je návod velmi podobný, tak moje uživatelské schopnosti a trpělivost budou nedostačující.
Ale díky článku mám velkou inspiraci se snažit aby dostačující byli.
Chcem sa opýtať, tie služby až na ten doplnok sú platené, však?
Áno, doplnok je zadarmo, ale samotné rozpoznávanie je platené. Ale nie je to tragédia z 5 dolárov, ktoré som zaplatila, mám po polroku ešte takmer 4.