Tri logotipa ASR pružatelja s ocjenama postavljenim preko.
Usporedbe4 min čitanja

Whisper vs Deepgram vs AssemblyAI: zašto Titlomat radi na Whisper-large-v3

Tri kandidata, jedna odluka. Što smo testirali, što hrvatski jezik traži, i gdje druga dva padaju u praksi.

Tri ozbiljna ASR pružatelja postoje na tržištu u 2026: OpenAI Whisper, Deepgram, AssemblyAI. Sva tri rade engleski impresivno dobro. Sva tri tvrde da podržavaju hrvatski.

Naša odluka pala je na Whisper-large-v3. Razlozi nisu samo cijena. Evo što smo testirali i što nas je vodilo.

Polazne hipoteze (prije testiranja)

Pretpostavili smo:

  1. Deepgram je najbrži (real-time streaming). Hrvatski podržava preko Nova-2 modela. Cijena: ~0.0125 $/min.
  2. AssemblyAI ima najbolji UX (jasan dashboard, dobra dokumentacija). Hrvatski preko language_code="hr". Cijena: ~0.012 $/min.
  3. Whisper-large-v3 open-source, samostalno hostan. Trošak je hardver i operativni dodatak, ne API. Hrvatski iz multilingvalnog korpusa.

Tri različita poslovna modela. Prve dvije su SaaS, treća je infrastruktura.

Što smo mjerili

Isti benchmark set (3 popularna hrvatska podcasta, prvih 5 minuta svakog), ista mjerna metoda:

  • WER (Word Error Rate) protiv ručno verificiranih referentnih transkripata
  • NER (Named Entity Recognition accuracy) za vlastita imena i brendove
  • Time-to-result za 60-min epizodu kroz svaki pipeline

Ground-truth pripremili smo ručno: 3 native govornika prošla su 15 minuta materijala, označila imena, brojeve, segmente. Standardni benchmark protokol.

Rezultati

KanalWhisper-large-v3Deepgram Nova-2AssemblyAI
Superhuman Life (čista naracija)1.85%4.2%5.1%
Lider Lab (poslovni intervju)5.28%8.7%9.4%
Netokracija (code-switching heavy)12.48%17.3%18.9%

Sva tri pružatelja imaju isti pattern: čisto-naracijski sadržaj prolazi pristojno, sadržaj s puno vlastitih imena i engleske terminologije pada. Razlika je u marginama.

Na NER osi (vlastita imena), Whisper s našim custom dictionary post-processorom dominira. Bez rječnika, sva tri su slična (60-75%). S rječnikom samo Whisper pipeline ima točku zahvata.

Gdje Deepgram zaista briljira

Real-time streaming. Ako gradite live-captioning za webinar ili video poziv, Deepgramova latencija (sub-200ms za prve riječi) je najbolja od tri. Whisper nije stream-first; vraćanje natrag na većini implementacija prelazi 2 sekunde po segmentu.

Mi nemamo live use-case. Sve obrade su batch (video upload je gotov prije nego mi išta krenemo). Pa Deepgramova najbolja stvar nije primjenjiva.

Gdje AssemblyAI zaista briljira

Dodatne funkcionalnosti: speaker diarization, automated chapters, sentiment, sažeci. „One-stop API" osjećaj.

Mi diarization radimo u pyannote (open-source), sažetke kao zaseban LLM korak na vlastitoj infrastrukturi. Plaćati nadogradnju za značajke koje već imamo nije imalo smisla.

Što su tri argumenta za Whisper na našoj strani

1. Obrada pod našom kontrolom

Whisper-large-v3 radi na lokalnom GPU boxu (RTX 6000 Pro, 96 GB VRAM). Za prosječni opseg (5-25 h obrade po kanalu mjesečno), trošak GPU + struje izlazi 60-70% jeftiniji od Deepgram/AssemblyAI API-ja. Vidi: detaljnu tehniku. Model card i težine su javno dostupni.

Kad opseg pređe 100 h/mj/kanal, infrastrukturni trošak po minuti pada još više. Za SaaS pružatelje cijena ostaje linearna.

2. Custom dictionary slobodno integriran

Whisper kao open-source omogućuje umetanje post-processora između sirovog izlaza i finalnog SRT-a. Možemo:

  • Pretražiti izlaz Levenshtein distance-om
  • Zamijeniti pogrešne kandidate s točnima iz korisničkog rječnika
  • Validirati pravopis svjesno o hrvatskim ć/č/š/ž/đ

Deepgram i AssemblyAI nude „custom vocabulary" feature, ali to je hint za ASR model, ne post-processor. Recovery je primjetno manji (~1 pp WER) u našim testovima naspram ~3.5 pp s Whisper + naš post-processor.

3. Rizik ovisnosti

Deepgram je dobio Series C 2024. AssemblyAI Series C 2023. Oba su pravna lica koja jednog dana mogu povisiti cijene, ukinuti hrvatski model ili nestati u akviziciji. Whisper-large-v3 je javan model na HuggingFaceu. Ako OpenAI sutra makne podršku, model je već skinut na naš disk i nastavlja raditi.

Za vezivanje na jednog pružatelja u dijelu pipeline-a koji nam je egzistencijalan, open-source je obranjiv izbor.

Što nismo testirali (a možda smo trebali)

  • AWS Transcribe: hrvatski podržava od 2023, ali NER kvaliteta po anegdotama je niža od tri kandidata gore. Nismo benchmarkali.
  • Google Cloud Speech-to-Text: hrvatski podržava, ali model je optimiziran za kratke isječke (poziv, naredba). Za 60-min epizodu osjeti se pad u kasnijim segmentima.
  • Microsoft Azure Speech: preskočili. Manji nišni izbor na hrvatskoj sceni.

Ako u sljedećih 12 mjeseci jedan od ovih napravi proboj na hrvatskom, vrijedi se vratiti.

Što bi promijenilo našu odluku

Ako bi:

  • Deepgram ili AssemblyAI smanjili WER ispod 5% na svim trima našim benchmark kanalima, balans bi se promijenio.
  • OpenAI ukinuo Whisper open-source distribuciju (malo vjerojatno, ali ne nemoguće), prešli bismo na njihov platforma API ili migrirali na novi open-source kandidat (možda Faster-Whisper successor).
  • Naša infrastruktura prešla 200 h obrade dnevno, samostalno hostanje bi postalo manje atraktivno naspram čisto API modela.

Trenutno: ni jedan od ova tri triggera nije aktivan.

Spojite kanal

Phase-0 brojke su s tri javna podcasta. Najbolji način provjere je vaš audio. Spojite kanal, mi obradimo prvi video preko našeg Whisper pipeline-a, vidite WER + NER u dashboardu. Probajte besplatno.