Tri ozbiljna ASR pružatelja postoje na tržištu u 2026: OpenAI Whisper, Deepgram, AssemblyAI. Sva tri rade engleski impresivno dobro. Sva tri tvrde da podržavaju hrvatski.
Naša odluka pala je na Whisper-large-v3. Razlozi nisu samo cijena. Evo što smo testirali i što nas je vodilo.
Polazne hipoteze (prije testiranja)
Pretpostavili smo:
- Deepgram je najbrži (real-time streaming). Hrvatski podržava preko Nova-2 modela. Cijena: ~0.0125 $/min.
- AssemblyAI ima najbolji UX (jasan dashboard, dobra dokumentacija). Hrvatski preko
language_code="hr". Cijena: ~0.012 $/min. - Whisper-large-v3 open-source, samostalno hostan. Trošak je hardver i operativni overhead, ne API. Hrvatski iz multilingvalnog korpusa.
Tri različita poslovna modela. Prve dvije su SaaS, treća je infrastruktura.
Što smo mjerili
Isti benchmark set (3 popularna hrvatska podcasta, prvih 5 minuta svakog), ista mjerna metoda:
- WER (Word Error Rate) protiv ručno verificiranih referentnih transkripata
- NER (Named Entity Recognition accuracy) za vlastita imena i brendove
- Time-to-result za 60-min epizodu kroz svaki pipeline
Ground-truth pripremili smo ručno: 3 native govornika prošla su 15 minuta materijala, označila imena, brojeve, segmente. Standardni benchmark protokol.
Rezultati
| Kanal | Whisper-large-v3 | Deepgram Nova-2 | AssemblyAI |
|---|---|---|---|
| Superhuman Life (čista naracija) | 1.85% | 4.2% | 5.1% |
| Lider Lab (poslovni intervju) | 5.28% | 8.7% | 9.4% |
| Netokracija (code-switching heavy) | 12.48% | 17.3% | 18.9% |
Sva tri pružatelja imaju isti pattern: čisto-naracijski sadržaj prolazi pristojno, sadržaj s puno vlastitih imena i engleske terminologije pada. Razlika je u marginama.
Na NER osi (vlastita imena), Whisper s našim custom dictionary post-processorom dominira. Bez rječnika, sva tri su slična (60-75%). S rječnikom samo Whisper pipeline ima točku zahvata.
Gdje Deepgram zaista briljira
Real-time streaming. Ako gradite live-captioning za webinar ili video poziv, Deepgramova latencija (sub-200ms za prve riječi) je najbolja od tri. Whisper nije stream-first; vraćanje natrag na većini implementacija prelazi 2 sekunde po segmentu.
Mi nemamo live use-case. Sve obrade su batch (video upload je gotov prije nego mi išta krenemo). Pa Deepgramova najbolja stvar nije primjenjiva.
Gdje AssemblyAI zaista briljira
Dodatne funkcionalnosti: speaker diarization, automated chapters, sentiment, sažeci. „One-stop API" osjećaj.
Mi diarization radimo u pyannote (open-source), sažetke kao zaseban LLM korak na vlastitoj infrastrukturi. Plaćati nadogradnju za feature-e koje već imamo nije imalo smisla.
Što su tri argumenta za Whisper na našoj strani
1. Compute pod našom kontrolom
Whisper-large-v3 radi na lokalnom GPU boxu (RTX 6000 Pro, 96 GB VRAM). Za prosječni opseg (5-25 h obrade po kanalu mjesečno), trošak GPU + struje izlazi 60-70% jeftiniji od Deepgram/AssemblyAI API-ja. Vidi: detaljnu tehniku. Model card i težine su javno dostupni.
Kad opseg pređe 100 h/mj/kanal, infrastrukturni trošak po minuti pada još više. Za SaaS pružatelje cijena ostaje linearna.
2. Custom dictionary slobodno integriran
Whisper kao open-source omogućuje umetanje post-processora između sirovog izlaza i finalnog SRT-a. Možemo:
- Pretražiti izlaz Levenshtein distance-om
- Zamijeniti pogrešne kandidate s točnima iz korisničkog rječnika
- Validirati pravopis svjesno o hrvatskim ć/č/š/ž/đ
Deepgram i AssemblyAI nude „custom vocabulary" feature, ali to je hint za ASR model, ne post-processor. Recovery je primjetno manji (~1 pp WER) u našim testovima naspram ~3.5 pp s Whisper + naš post-processor.
3. Dependency rizik
Deepgram je dobio Series C 2024. AssemblyAI Series C 2023. Oba su pravna lica koja jednog dana mogu povisiti cijene, ukinuti hrvatski model ili nestati u akviziciji. Whisper-large-v3 je javan model na HuggingFaceu. Ako OpenAI sutra makne podršku, model je već skinut na naš disk i nastavlja raditi.
Za single-vendor lock-in u dijelu pipeline-a koji nam je egzistencijalan, open-source je defensible choice.
Što nismo testirali (a možda smo trebali)
- AWS Transcribe: hrvatski podržava od 2023, ali NER kvaliteta po anegdotama je niža od tri kandidata gore. Nismo benchmarkali.
- Google Cloud Speech-to-Text: hrvatski podržava, ali model je optimiziran za kratke isječke (poziv, naredba). Za 60-min epizodu osjeti se pad u kasnijim segmentima.
- Microsoft Azure Speech: preskočili. Manji nišni izbor na hrvatskoj sceni.
Ako u sljedećih 12 mjeseci jedan od ovih napravi proboj na hrvatskom, vrijedi se vratiti.
Što bi promijenilo našu odluku
Ako bi:
- Deepgram ili AssemblyAI smanjili WER ispod 5% na svim trima našim benchmark kanalima, balans bi se promijenio.
- OpenAI ukinuo Whisper open-source distribuciju (malo vjerojatno, ali ne nemoguće), prešli bismo na njihov platforma API ili migrirali na novi open-source kandidat (možda Faster-Whisper successor).
- Naša infrastruktura prešla 200 h obrade dnevno, samostalno hostanje bi postalo manje atraktivno naspram čisto API modela.
Trenutno: ni jedan od ova tri triggera nije aktivan.
Spojite kanal
Phase-0 brojke su s tri javna podcasta. Najbolji način provjere je vaš audio. Spojite kanal, mi obradimo prvi video preko našeg Whisper pipeline-a, vidite WER + NER u dashboardu. Probajte besplatno.



