Tri logotipa ASR pružatelja s ocjenama postavljenim preko.
Usporedbe4 min čitanja

Whisper vs Deepgram vs AssemblyAI: zašto Titlomat radi na Whisper-large-v3

Tri kandidata, jedna odluka. Što smo testirali, što hrvatski jezik traži, i gdje druga dva padaju u praksi.

Tri ozbiljna ASR pružatelja postoje na tržištu u 2026: OpenAI Whisper, Deepgram, AssemblyAI. Sva tri rade engleski impresivno dobro. Sva tri tvrde da podržavaju hrvatski.

Naša odluka pala je na Whisper-large-v3. Razlozi nisu samo cijena. Evo što smo testirali i što nas je vodilo.

Polazne hipoteze (prije testiranja)

Pretpostavili smo:

  1. Deepgram je najbrži (real-time streaming). Hrvatski podržava preko Nova-2 modela. Cijena: ~0.0125 $/min.
  2. AssemblyAI ima najbolji UX (jasan dashboard, dobra dokumentacija). Hrvatski preko language_code="hr". Cijena: ~0.012 $/min.
  3. Whisper-large-v3 open-source, samostalno hostan. Trošak je hardver i operativni overhead, ne API. Hrvatski iz multilingvalnog korpusa.

Tri različita poslovna modela. Prve dvije su SaaS, treća je infrastruktura.

Što smo mjerili

Isti benchmark set (3 popularna hrvatska podcasta, prvih 5 minuta svakog), ista mjerna metoda:

  • WER (Word Error Rate) protiv ručno verificiranih referentnih transkripata
  • NER (Named Entity Recognition accuracy) za vlastita imena i brendove
  • Time-to-result za 60-min epizodu kroz svaki pipeline

Ground-truth pripremili smo ručno: 3 native govornika prošla su 15 minuta materijala, označila imena, brojeve, segmente. Standardni benchmark protokol.

Rezultati

KanalWhisper-large-v3Deepgram Nova-2AssemblyAI
Superhuman Life (čista naracija)1.85%4.2%5.1%
Lider Lab (poslovni intervju)5.28%8.7%9.4%
Netokracija (code-switching heavy)12.48%17.3%18.9%

Sva tri pružatelja imaju isti pattern: čisto-naracijski sadržaj prolazi pristojno, sadržaj s puno vlastitih imena i engleske terminologije pada. Razlika je u marginama.

Na NER osi (vlastita imena), Whisper s našim custom dictionary post-processorom dominira. Bez rječnika, sva tri su slična (60-75%). S rječnikom samo Whisper pipeline ima točku zahvata.

Gdje Deepgram zaista briljira

Real-time streaming. Ako gradite live-captioning za webinar ili video poziv, Deepgramova latencija (sub-200ms za prve riječi) je najbolja od tri. Whisper nije stream-first; vraćanje natrag na većini implementacija prelazi 2 sekunde po segmentu.

Mi nemamo live use-case. Sve obrade su batch (video upload je gotov prije nego mi išta krenemo). Pa Deepgramova najbolja stvar nije primjenjiva.

Gdje AssemblyAI zaista briljira

Dodatne funkcionalnosti: speaker diarization, automated chapters, sentiment, sažeci. „One-stop API" osjećaj.

Mi diarization radimo u pyannote (open-source), sažetke kao zaseban LLM korak na vlastitoj infrastrukturi. Plaćati nadogradnju za feature-e koje već imamo nije imalo smisla.

Što su tri argumenta za Whisper na našoj strani

1. Compute pod našom kontrolom

Whisper-large-v3 radi na lokalnom GPU boxu (RTX 6000 Pro, 96 GB VRAM). Za prosječni opseg (5-25 h obrade po kanalu mjesečno), trošak GPU + struje izlazi 60-70% jeftiniji od Deepgram/AssemblyAI API-ja. Vidi: detaljnu tehniku. Model card i težine su javno dostupni.

Kad opseg pređe 100 h/mj/kanal, infrastrukturni trošak po minuti pada još više. Za SaaS pružatelje cijena ostaje linearna.

2. Custom dictionary slobodno integriran

Whisper kao open-source omogućuje umetanje post-processora između sirovog izlaza i finalnog SRT-a. Možemo:

  • Pretražiti izlaz Levenshtein distance-om
  • Zamijeniti pogrešne kandidate s točnima iz korisničkog rječnika
  • Validirati pravopis svjesno o hrvatskim ć/č/š/ž/đ

Deepgram i AssemblyAI nude „custom vocabulary" feature, ali to je hint za ASR model, ne post-processor. Recovery je primjetno manji (~1 pp WER) u našim testovima naspram ~3.5 pp s Whisper + naš post-processor.

3. Dependency rizik

Deepgram je dobio Series C 2024. AssemblyAI Series C 2023. Oba su pravna lica koja jednog dana mogu povisiti cijene, ukinuti hrvatski model ili nestati u akviziciji. Whisper-large-v3 je javan model na HuggingFaceu. Ako OpenAI sutra makne podršku, model je već skinut na naš disk i nastavlja raditi.

Za single-vendor lock-in u dijelu pipeline-a koji nam je egzistencijalan, open-source je defensible choice.

Što nismo testirali (a možda smo trebali)

  • AWS Transcribe: hrvatski podržava od 2023, ali NER kvaliteta po anegdotama je niža od tri kandidata gore. Nismo benchmarkali.
  • Google Cloud Speech-to-Text: hrvatski podržava, ali model je optimiziran za kratke isječke (poziv, naredba). Za 60-min epizodu osjeti se pad u kasnijim segmentima.
  • Microsoft Azure Speech: preskočili. Manji nišni izbor na hrvatskoj sceni.

Ako u sljedećih 12 mjeseci jedan od ovih napravi proboj na hrvatskom, vrijedi se vratiti.

Što bi promijenilo našu odluku

Ako bi:

  • Deepgram ili AssemblyAI smanjili WER ispod 5% na svim trima našim benchmark kanalima, balans bi se promijenio.
  • OpenAI ukinuo Whisper open-source distribuciju (malo vjerojatno, ali ne nemoguće), prešli bismo na njihov platforma API ili migrirali na novi open-source kandidat (možda Faster-Whisper successor).
  • Naša infrastruktura prešla 200 h obrade dnevno, samostalno hostanje bi postalo manje atraktivno naspram čisto API modela.

Trenutno: ni jedan od ova tri triggera nije aktivan.

Spojite kanal

Phase-0 brojke su s tri javna podcasta. Najbolji način provjere je vaš audio. Spojite kanal, mi obradimo prvi video preko našeg Whisper pipeline-a, vidite WER + NER u dashboardu. Probajte besplatno.