Tri ozbiljna ASR pružatelja postoje na tržištu u 2026: OpenAI Whisper, Deepgram, AssemblyAI. Sva tri rade engleski impresivno dobro. Sva tri tvrde da podržavaju hrvatski.
Naša odluka pala je na Whisper-large-v3. Razlozi nisu samo cijena. Evo što smo testirali i što nas je vodilo.
Polazne hipoteze (prije testiranja)
Pretpostavili smo:
- Deepgram je najbrži (real-time streaming). Hrvatski podržava preko Nova-2 modela. Cijena: ~0.0125 $/min.
- AssemblyAI ima najbolji UX (jasan dashboard, dobra dokumentacija). Hrvatski preko
language_code="hr". Cijena: ~0.012 $/min. - Whisper-large-v3 open-source, samostalno hostan. Trošak je hardver i operativni dodatak, ne API. Hrvatski iz multilingvalnog korpusa.
Tri različita poslovna modela. Prve dvije su SaaS, treća je infrastruktura.
Što smo mjerili
Isti benchmark set (3 popularna hrvatska podcasta, prvih 5 minuta svakog), ista mjerna metoda:
- WER (Word Error Rate) protiv ručno verificiranih referentnih transkripata
- NER (Named Entity Recognition accuracy) za vlastita imena i brendove
- Time-to-result za 60-min epizodu kroz svaki pipeline
Ground-truth pripremili smo ručno: 3 native govornika prošla su 15 minuta materijala, označila imena, brojeve, segmente. Standardni benchmark protokol.
Rezultati
| Kanal | Whisper-large-v3 | Deepgram Nova-2 | AssemblyAI |
|---|---|---|---|
| Superhuman Life (čista naracija) | 1.85% | 4.2% | 5.1% |
| Lider Lab (poslovni intervju) | 5.28% | 8.7% | 9.4% |
| Netokracija (code-switching heavy) | 12.48% | 17.3% | 18.9% |
Sva tri pružatelja imaju isti pattern: čisto-naracijski sadržaj prolazi pristojno, sadržaj s puno vlastitih imena i engleske terminologije pada. Razlika je u marginama.
Na NER osi (vlastita imena), Whisper s našim custom dictionary post-processorom dominira. Bez rječnika, sva tri su slična (60-75%). S rječnikom samo Whisper pipeline ima točku zahvata.
Gdje Deepgram zaista briljira
Real-time streaming. Ako gradite live-captioning za webinar ili video poziv, Deepgramova latencija (sub-200ms za prve riječi) je najbolja od tri. Whisper nije stream-first; vraćanje natrag na većini implementacija prelazi 2 sekunde po segmentu.
Mi nemamo live use-case. Sve obrade su batch (video upload je gotov prije nego mi išta krenemo). Pa Deepgramova najbolja stvar nije primjenjiva.
Gdje AssemblyAI zaista briljira
Dodatne funkcionalnosti: speaker diarization, automated chapters, sentiment, sažeci. „One-stop API" osjećaj.
Mi diarization radimo u pyannote (open-source), sažetke kao zaseban LLM korak na vlastitoj infrastrukturi. Plaćati nadogradnju za značajke koje već imamo nije imalo smisla.
Što su tri argumenta za Whisper na našoj strani
1. Obrada pod našom kontrolom
Whisper-large-v3 radi na lokalnom GPU boxu (RTX 6000 Pro, 96 GB VRAM). Za prosječni opseg (5-25 h obrade po kanalu mjesečno), trošak GPU + struje izlazi 60-70% jeftiniji od Deepgram/AssemblyAI API-ja. Vidi: detaljnu tehniku. Model card i težine su javno dostupni.
Kad opseg pređe 100 h/mj/kanal, infrastrukturni trošak po minuti pada još više. Za SaaS pružatelje cijena ostaje linearna.
2. Custom dictionary slobodno integriran
Whisper kao open-source omogućuje umetanje post-processora između sirovog izlaza i finalnog SRT-a. Možemo:
- Pretražiti izlaz Levenshtein distance-om
- Zamijeniti pogrešne kandidate s točnima iz korisničkog rječnika
- Validirati pravopis svjesno o hrvatskim ć/č/š/ž/đ
Deepgram i AssemblyAI nude „custom vocabulary" feature, ali to je hint za ASR model, ne post-processor. Recovery je primjetno manji (~1 pp WER) u našim testovima naspram ~3.5 pp s Whisper + naš post-processor.
3. Rizik ovisnosti
Deepgram je dobio Series C 2024. AssemblyAI Series C 2023. Oba su pravna lica koja jednog dana mogu povisiti cijene, ukinuti hrvatski model ili nestati u akviziciji. Whisper-large-v3 je javan model na HuggingFaceu. Ako OpenAI sutra makne podršku, model je već skinut na naš disk i nastavlja raditi.
Za vezivanje na jednog pružatelja u dijelu pipeline-a koji nam je egzistencijalan, open-source je obranjiv izbor.
Što nismo testirali (a možda smo trebali)
- AWS Transcribe: hrvatski podržava od 2023, ali NER kvaliteta po anegdotama je niža od tri kandidata gore. Nismo benchmarkali.
- Google Cloud Speech-to-Text: hrvatski podržava, ali model je optimiziran za kratke isječke (poziv, naredba). Za 60-min epizodu osjeti se pad u kasnijim segmentima.
- Microsoft Azure Speech: preskočili. Manji nišni izbor na hrvatskoj sceni.
Ako u sljedećih 12 mjeseci jedan od ovih napravi proboj na hrvatskom, vrijedi se vratiti.
Što bi promijenilo našu odluku
Ako bi:
- Deepgram ili AssemblyAI smanjili WER ispod 5% na svim trima našim benchmark kanalima, balans bi se promijenio.
- OpenAI ukinuo Whisper open-source distribuciju (malo vjerojatno, ali ne nemoguće), prešli bismo na njihov platforma API ili migrirali na novi open-source kandidat (možda Faster-Whisper successor).
- Naša infrastruktura prešla 200 h obrade dnevno, samostalno hostanje bi postalo manje atraktivno naspram čisto API modela.
Trenutno: ni jedan od ova tri triggera nije aktivan.
Spojite kanal
Phase-0 brojke su s tri javna podcasta. Najbolji način provjere je vaš audio. Spojite kanal, mi obradimo prvi video preko našeg Whisper pipeline-a, vidite WER + NER u dashboardu. Probajte besplatno.



