Vzdělávání

Co je latency ve Voice AI: proč 300 ms rozhoduje o úspěchu AI asistenta

Latency pod 700 ms nebo zákazník zavěsí. Vysvětlujeme ASR, LLM a TTS pipeline, jak streaminng snižuje vnímané zpoždění a co to znamená pro české firmy.

Schéma pipeline hlasového AI asistenta s vyznačenými zdroji latency
Latency ve Voice AI není jedno číslo — je to součet čtyř oddělených fází, z nichž každou lze optimalizovat.

Proč jedno slovo o latency rozhoduje o zákazníkovi

Představte si, že zavoláte do autoservisu. Recepční vás přivítá, zeptá se na důvod hovoru — a pak nastane ticho. Jedna sekunda, dvě, tři. Teprve pak přijde odpověď. Pravděpodobně zavěsíte a zavoláte jinam. Tohle není jen intuice — je to fyziologie. Lidský mozek v přirozené konverzaci očekává odpověď do 200 až 500 milisekund. Cokoliv delší přerušuje pocit přirozeného dialogu.

Právě tady vstupuje latency — zpoždění mezi tím, kdy zákazník domluví větu, a tím, kdy AI asistent začne odpovídat. Je to číslo, které na první pohled vypadá jako technický detail, ale ve skutečnosti rozhoduje o tom, zda zákazník zůstane na lince nebo zavěsí, zda vnímá AI jako kompetentní nebo jako rozbité rádio, a nakonec i o tom, zda se rezervace potvrdí nebo odejde ke konkurenci.

Tento článek se latency ve Voice AI věnuje do hloubky, která v českém internetu chybí. Nebudeme vysvětlovat jen co to je — vysvětlíme jak vzniká, kde se dá snižovat, co jsou reálná čísla z produkčních systémů a jak to celé dopadá na obchodní výkon AI recepční v česky mluvícím prostředí.

Jak voice AI pipeline funguje: tři fáze kde vzniká zpoždění

Voice AI pipeline — tedy celý technický řetězec od vstupu zákazníkova hlasu po výstup AI odpovědi — se skládá ze tří samostatných fází. Každá z nich přidává svůj díl latency a každou lze optimalizovat nezávisle. Pochopení tohoto řetězce je klíč k porozumění tomu, proč jsou některé AI asistenty svižné a jiné frustrující.

První fáze je ASR — Automatic Speech Recognition, tedy automatické rozpoznávání řeči. Systém přijme zvukový signál z telefonu a převede ho na text. Moderní cloudové ASR systémy jako Google Speech-to-Text, Deepgram nebo OpenAI Whisper zvládají tuto fázi typicky za 150 až 400 milisekund. Klíčová proměnná je zde délka výpovědi zákazníka: kratší věta = rychlejší transkripce.

Druhá fáze je LLM inference — velký jazykový model zpracuje přijatý text, pochopí záměr zákazníka a vygeneruje odpověď. Tato fáze je nejpomaleji optimalizovatelná a zároveň největší zdroj latency. Záleží na velikosti modelu, výpočetním výkonu serveru a délce generované odpovědi. U moderních API jako OpenAI GPT-4o nebo Anthropic Claude Haiku jde TTFT (Time To First Token) typicky o 200 až 600 milisekund.

Třetí fáze je TTS — Text-to-Speech, syntéza hlasu. Textová odpověď se převede zpět na přirozené zvukové vlny. Moderní hlasové enginy jako ElevenLabs, PlayHT nebo Microsoft Azure Neural Voice zvládají první zvukový chunk vydat za 50 až 250 milisekund. Celá fráze pak v závislosti na délce trvá déle, ale zákazník slyší začátek odpovědi brzy — a přesně na tom záleží.

Skrytá čtvrtá fáze: endpointing a proč zákazníci cítí zpoždění dřív, než to čekají

Většina technických diskusí o voice AI latency mluví o třech fázích — ASR, LLM, TTS. Ale existuje čtvrtá fáze, která se do diskuse dostává zřídka, přestože přispívá 200 až 800 milisekund ke zpoždění každého hovoru: endpointing.

Endpointing je moment, kdy systém rozhodne, že zákazník dokončil svou větu a je čas začít zpracovávat odpověď. Zní to jednoduše, ale ve skutečnosti jde o jeden z nejtěžších problémů ve voice AI. Zákazníci dělají přirozené pauzy uprostřed věty — nadechnou se, přemýšlí, hledají slovo. Pokud systém reaguje příliš brzy, přeruší zákazníka. Pokud čeká příliš dlouho, přidává zbytečné zpoždění ke každé odpovědi.

Špatně nakalibrovaný endpointing je příčinou dvou nejčastějších stížností na AI asistenty: 'skáče mi do řeči' (příliš agresivní endpointing) a 'je hrozně pomalý' (příliš opatrný endpointing). Moderní systémy používají modely trénované na rozpoznávání přirozených pauz v řeči — ale i ty fungují hůře v hlučném prostředí, při telefonním šumu nebo u mluvčích s neobvyklými přestávkami v projevu.

Praktický dopad: firma která nastavuje AI asistenta pro příjem hovorů by měla vždy testovat endpointing v reálných podmínkách — z mobilního telefonu, z prostředí s hlukem, s různými mluvčími. Nastavení endpointing timeoutu na 500 ms funguje jinak pro seniorního pacienta voláčího do ordinace a jinak pro technicky zdatného zákazníka autoservisu.

Jaká latency je přijatelná: výzkum o lidském vnímání zpoždění

Kde je hranice, za kterou latency začne škodit? Výzkumy v oblasti konverzační psychologie a human-computer interaction (HCI) dávají poměrně konzistentní odpovědi, i když se liší podle kontextu.

Studie publikovaná v Journal of the Acoustical Society of America ukázala, že lidé v přirozeném rozhovoru odpovídají průměrně za 200 ms po konci předchozí výpovědi. V telefonické konverzaci se toto okno rozšiřuje na 400–600 ms — přirozené zpoždění sítě a adaptace na médium zvyšují toleranci. Nicméně nad 1 000 ms (jedna sekunda) nastupuje první frustrace: mozek začne interpretovat ticho jako chybu systému nebo přerušené spojení.

Výzkum Nielsen Norman Group o webovém výkonu — přestože primárně zaměřený na webové aplikace — stanovil tři klíčové prahy, které platí i pro hlasové rozhraní: 100 ms jako hranice pro pocit okamžité reakce, 1 000 ms jako hranice pro udržení pozornosti a 10 sekund jako absolutní limit před ztrátou zájmu. Ve voice AI jsou tyto hranice přísnější — 700 ms je praktická horní mez pro první slovo odpovědi, pokud má zákazník pocit přirozené konverzace.

Pro česky mluvící zákazníky to má specifický rozměr. Čeština má bohatou morfologii — slova jsou delší, větné struktury složitější a ASR systémy pro češtinu historicky zaostávaly za angličtinou. Moderní modely tento rozdíl výrazně zmenšily, ale zejména u regionálních přízvuků nebo rychlého tempa řeči může ASR fáze trvat déle — a to se přičítá k celkové latency.

Streaming: jak moderní systémy 'dělají, že odpovídají dřív, než vědí co říct'

Největší inovace v oblasti voice AI latency za poslední dva roky není rychlejší hardware ani lepší modely — je to streaming. A pochopení toho, jak streaming funguje, vysvětluje, proč jsou nejlepší AI asistenty dnes schopny odpovídat zdánlivě bleskově, i když pod kapotou stále běží stejný (pomalý) LLM.

Klasická architektura funguje sekvenčně: ASR dokončí celý přepis → LLM vygeneruje celou odpověď → TTS přečte celý text. Každý krok čeká na předchozí. Výsledná latency je součet všech tří fází — typicky 1 500 až 3 000 ms.

Streamingová architektura přeruší tuto sekvenčnost na dvou místech. Za prvé, LLM generuje tokeny (části slov) průběžně a okamžitě je předává TTS enginu. TTS nepotřebuje celou odpověď — čeká jen na první větu nebo první sémanticky uzavřenou frázi a okamžitě začne syntetizovat zvuk. Za druhé, TTS předává audio v malých chunkcích (buffery 50–150 ms) streamem do telefonu — zákazník slyší začátek odpovědi, zatímco LLM ještě generuje zbytek.

Výsledek: zákazník slyší první slova odpovědi za 500–800 ms od dokončení své věty, přestože celá odpověď je hotová třeba za 2 500 ms. Klíčová metrika přestává být E2E latency (End-to-End) a stává se jí TTFW — Time To First Word, tedy čas do prvního slyšitelného slova. Právě TTFW rozhoduje o zákazníkově subjektivním pocitu rychlosti systému.

Latency vs kvalita: nevyhnutelný kompromis a jak ho řídit

V praxi existuje fundamentální napětí mezi latency a kvalitou odpovědi. Rychlejší modely jsou obecně méně přesné — a přesnější modely jsou pomalejší. Toto není nedostatek který technologie odstraní. Je to fyzikální realita výpočetní složitosti.

Konkrétně: GPT-4o mini od OpenAI odpovídá s TTFT kolem 200–350 ms a generuje přibližně 100 tokenů za sekundu. GPT-4o (plná verze) má TTFT 400–700 ms, ale generuje odpovědi vyšší kvality — lépe rozumí kontextu, lépe zpracovává složité dotazy a méně halucinuje. Pro firmu, která nastavuje AI asistenta pro příjem hovorů, to znamená klíčové rozhodnutí: použít rychlejší model s vyšším rizikem chyb, nebo pomalejší model s přesnějšími odpověďmi?

Odpověď není jednoduchá a závisí na oboru. Autoservis kde zákazník volá kvůli přezutí — nízká složitost dotazů, vysoká citlivost na rychlost — benefituje z rychlejšího modelu. Advokátní kancelář kde zákazník popisuje složitou právní situaci — vysoká složitost, nižší citlivost na 300 ms navíc — benefituje z přesnějšího modelu.

Nejlepší systémy tento problém řeší dynamicky: používají rychlý lehký model pro klasifikaci intentu (co zákazník chce?) a přesnější model jen pro fáze, kde zákazník čeká na faktickou odpověď. Tato hybridní architektura kombinuje nízkou vnímanou latency s vysokou přesností odpovědí.

Síťová latency: skrytý příspěvek který nikdo nepočítá

Technické diskuse o voice AI latency se soustředí na ASR, LLM a TTS. Ale existuje další vrstva, která tyto hodnoty výrazně ovlivňuje a přitom se o ní mluví zřídka: síťová latency mezi telefonem zákazníka, telefonním serverem a AI infrastrukturou.

Moderní voice AI systémy jsou cloudové — audio z telefonu zákazníka putuje přes telefonní síť na server poskytovatele, odtamtud na ASR server (který může být v jiném datovém centru), výsledek jde na LLM API (další datové centrum, případně jiný kontinent) a výstup se vrací zpět. Každý skok přidává 10 až 80 ms. V praxi součet síťových latencí typicky tvoří 100 až 300 ms z celkového zpoždění.

Pro firmy v Česku to má konkrétní dopad. Pokud poskytovatel AI asistenta zpracovává hovory přes infrastrukturu v USA, síťová latency z Prahy do Ameriky a zpět přidá 150–200 ms ke každé fázi. To je navíc 300–600 ms k celkové latency oproti poskytovateli s evropskými servery. Z hlediska zákazníkova pocitu může jít o rozdíl mezi 'přirozený rozhovor' a 'pauzy mi vadí'.

Při výběru poskytovatele AI asistenta pro českou firmu je proto relevantní otázka: kde jsou fyzicky servery na kterých ASR a LLM inference probíhá? Evropská infrastruktura není jen otázka GDPR — je to také otázka latency a zákazníkova pocitu z hovoru.

Speculative execution: nejpokročilejší technika snižování latency

Na frontě výzkumu v oblasti voice AI latency existuje technika, o které se v mainstreamových článcích téměř nepíše, přesto ji dnes implementují nejlepší systémy: speculative execution, nebo česky spekulativní vykonávání.

Myšlenka je elegantní: AI asistent může s vysokou pravděpodobností předvídat, jak zákazníkova věta dopadne, ještě předtím než zákazník domluví. Například: zákazník říká 'Potřebuji objednat na...' — zkušený systém ví, že s 90% pravděpodobností přijde jedno ze tří: termín, cenu nebo informaci. Systém může spustit LLM paralelně pro všechny tři scénáře a výsledek připravit ještě dříve, než zákazník větu dokončí.

Jakmile endpointing detekuje konec věty a ASR ji přepíše, systém jen vybere správný předpočítaný výsledek a okamžitě ho přehraje. Výsledná vnímaná latency klesne o 300–600 ms. Speculative execution funguje nejlépe u opakujících se vzorců hovorů — a to je přesně ten případ většiny příchozích hovorů do firem: zákazníci volají s podobnými dotazy, ve stejných vzorcích a s předvídatelnými záměry.

Tato technika je jedním z důvodů, proč se špičkové voice AI systémy chovají překvapivě svižně i při složitějších otázkách. Nejde jen o rychlý hardware — je to chytré předpovídání záměru na základě dat z milionů předchozích hovorů.

Jak měřit latency AI asistenta: metriky které mají smysl

Pokud chcete objektivně posoudit latency AI asistenta — ať už při výběru poskytovatele nebo při optimalizaci vlastního systému — potřebujete znát správné metriky. Jedna hodnota 'průměrné latency' nestačí.

TTFW (Time To First Word): čas od konce zákazníkovy výpovědi do prvního slyšitelného slova odpovědi. Toto je nejdůležitější metrika pro zákazníkovu subjektivní zkušenost. Cíl: pod 700 ms pro 95. percentil hovorů.

E2E latency (End-to-End): čas od konce zákazníkovy výpovědi do konce celé odpovědi AI. Důležitá pro delší odpovědi kde zákazník čeká na kompletní informaci. Cíl: pod 3 500 ms pro standardní odpovědi.

Endpointing latency: čas od skutečného konce zákazníkovy věty do detekce konce. Špatně měřená metrika — systémy ji typicky nereportují, přestože přispívá výrazně k celkové latency. Dá se změřit ručně: zaznamenejte hovor a porovnejte přesný čas konce věty a čas spuštění ASR.

P95 a P99 latency: průměrná latency je klíčová, ale P95 (95. percentil) a P99 (99. percentil) říkají jak se systém chová v horších případech. Systém s průměrnou TTFW 500 ms a P99 2 000 ms bude mít 1 ze 100 zákazníků frustrující zkušenost. Toto číslo se při hodnocení systému nikdy nevynechává.

Interrupt rate: jak často AI přeruší zákazníka uprostřed věty (příznaky příliš agresivního endpointingu). Cíl: pod 3 % hovorů.

Dopad latency na obchodní výsledky: co říkají data

Latency není jen technická metrika — má přímý dopad na konverzi hovorů, zákazníkův dojem z firmy a nakonec na tržby. Tady jsou konkrétní čísla z produkčních nasazení voice AI systémů.

Studie provedená na velkém vzorku příchozích hovorů do call center ukázala, že snížení TTFW z 1 200 ms na 600 ms vedlo ke zvýšení booking completion rate o 18 %. Zákazníci který čekali kratší dobu na odpověď, méně často hovor předčasně ukončili a více dokončili rezervaci.

Interní data z KraftunAI ukazují, že hovory kde systém odpovídal s TTFW nad 1 000 ms měly o 23 % vyšší abandon rate (zákazník zavěsil před dokončením hovoru) než hovory s TTFW pod 700 ms. V přepočtu na průměrnou firmu se 400 hovory měsíčně a průměrnou hodnotou rezervace 2 200 Kč to může být rozdíl 20 000 až 40 000 Kč měsíčního obratu jen z optimalizace latency.

Nejdramatičtější vliv má latency v prvních 5 sekundách hovoru. Pokud AI asistent neodpoví přirozeně hned na první zákazníkovu větu, zákazník okamžitě klasifikuje systém jako nefunkční nebo jako záznamník — a přestane komunikovat přirozeně. Naopak první svižná odpověď nastaví pozitivní mentální model celého hovoru.

Čeština a latency: specifika jazyka která nikdo nezmiňuje

Čeština klade na voice AI pipeline specifické nároky, které se přímo promítají do latency — a o nichž se v technické literatuře téměř nepíše, protože většina výzkumu probíhá v angličtině.

Morfologická složitost češtiny znamená delší slova a více variant stejného slova. Slovo 'rezervaci' má 7 různých tvarů (rezervace, rezervaci, rezervací, rezervacemi...) a ASR systém musí rozhodnout o správném tvaru na základě kontextu celé věty. Toto rozhodnutí probíhá v reálném čase a přidává výpočetní zátěž — a tedy latency — oproti morfologicky jednodušším jazykům jako angličtina.

Délka věty v češtině je průměrně o 15–20 % delší než ekvivalentní anglická věta (vyjádřeno v počtu znaků). Delší ASR vstup = delší zpracování. LLM kontextové okno pro češtinu se naplní rychleji. TTS syntéza delšího textu trvá déle. Každý z těchto faktorů přidává 50–150 ms k celkové latency oproti anglickému hovoru na stejné infrastruktuře.

Dobrá zpráva: moderní ASR systémy jako Deepgram Nova-2 nebo Google Chirp2 výrazně zlepšily podporu češtiny za poslední dva roky. Latency při rozpoznávání češtiny se dnes blíží hodnotám pro angličtinu. Ale stále platí: firma hodnotící AI asistenta by měla vždy testovat latency přímo pro češtinu — ne vycházet z benchmarků naměřených v angličtině.

Praktická doporučení: jak posoudit latency AI asistenta před nákupem

Při výběru poskytovatele AI asistenta pro vaši firmu nezůstávejte u marketingových slibů. Latency se dá objektivně změřit — a každý seriózní poskytovatel by vám umožnil toto testování před podpisem smlouvy.

Prvním testem je zavolání na demo linku z mobilního telefonu (ne z pevné linky, ne přes VoIP aplikaci). Mobilní telefon je nejběžnější způsob, jakým zákazníci volají — a mobilní síť přidává více variability do síťové latency. Změřte čas od konce vaší věty do prvního slova odpovědi AI. Udělejte to 10× a vypočítejte průměr i maximum.

Druhým testem je záměrné testování edge-case situací. Mluvte rychle, pak pomalu. Udělejte přirozenou pauzu uprostřed věty a sledujte, zda vás AI přeruší nebo počká. Použijte různé formulace stejného dotazu a sledujte, zda se latency nebo kvalita odpovědi mění.

Třetím testem je testování v reálném prostředí vaší firmy. Pokud máte autoservis, zavolejte z dílny s hlukem. Pokud máte ordinaci, zavolejte ráno ve špičce. Akustické podmínky výrazně ovlivňují ASR latency — a systém který funguje skvěle v tichém kancelářském prostředí může v reálném prostředí selhat.

A nakonec se zeptejte poskytovatele na konkrétní čísla: jaká je průměrná TTFW na jejich produkčním systému? Kde jsou fyzicky jejich servery? Jak měří P95 latency? Poskytovatel který na tyto otázky nemá odpověď nebo je odbývá, pravděpodobně latency systematicky neoptimalizuje.

Budoucnost: kam jde latency ve voice AI v roce 2026 a dál

Latency ve voice AI se snižuje rychleji, než většina lidí předpokládá. Před dvěma lety byla průměrná E2E latency produkčních systémů 2 000–4 000 ms. Dnes jsou nejlepší systémy pod 600 ms TTFW. Kam to směřuje?

End-to-end modely jsou nejslibnějším směrem. Současná architektura ASR + LLM + TTS je sekvenční kombinace tří oddělených systémů. Výzkumné skupiny v OpenAI, Google a Meta pracují na modelech, které zpracovávají zvukový vstup přímo na zvukový výstup — bez mezikroku text→text. Takové modely eliminují latency přechodů mezi fázemi a mohou reagovat přirozeněji na emocionální tón hlasu zákazníka. OpenAI GPT-4o Audio je raný příklad tohoto přístupu.

Edge computing — zpracování AI inference přímo na serverech telefonního operátora nebo lokálně — je dalším směrem který výrazně sníží síťovou latency. Místo aby zvuk putoval na cloudový server, zpracování proběhne na serveru fyzicky blízkém zákazníkovi.

Pro firmy v Česku to znamená jednu věc: voice AI asistenti budou v příštích dvou letech výrazně přirozenější. Rozdíl mezi rozhovorem s AI a rozhovorem s člověkem bude nadále klesat — a to včetně latency, která dnes zůstává jedním z nejzřetelnějších 'telltale signs' AI.

Shrnutí: co si z latency odnést jako majitel firmy

Latency ve Voice AI není abstraktní technická metrika — je to rozdíl mezi AI asistentem, který zákazníka přesvědčí a takovým, který ho odradí. Klíčové body pro každého kdo o AI asistentovi uvažuje nebo ho již provozuje:

Pipeline je tříkroková (ASR + LLM + TTS) plus endpointing. Každý krok přispívá k celkové latency a každý lze optimalizovat. TTFW pod 700 ms je praktická cílová hodnota pro přirozený rozhovor. Streaming dramaticky snižuje vnímanou latency bez nutnosti rychlejšího hardwaru. Česká specifika (morfologie, délka vět) mírně zvyšují latency oproti angličtině — testujte vždy v češtině. Lokace serverů má přímý vliv na síťovou latency — evropská infrastruktura je výhoda. Před výběrem poskytovatele vždy testujte demo linku z mobilního telefonu v reálných podmínkách.

AI asistent jehož latency překračuje 1 000 ms TTFW v produkci nedoporučujeme nasazovat jako první linii příjmu hovorů. Zákazníci jsou rychlejší než kdykoli předtím v rozhodnutí zavěsit — a latency je první věc, která o tom rozhoduje ještě dříve, než zákazník vysloví druhé slovo.

← Zpět na všechny články