Najveća pojedinačna intervencija koja popravlja hrvatski Whisper output nije veći model ni finetuning. To je tekstualna datoteka.
Čista naracija s domaćim govornicima prolazi ispod 2% WER bez ikakve pomoći. Sadržaj s puno vlastitih imena i engleske terminologije skoči na 12%+. Razlika između ta dva svijeta? Rječnik od pedesetak unosa.
Što je custom dictionary
Lista riječi i fraza koje Whisper vjerovatno čuje pogrešno, sa točnim oblikom. Naš pipeline, nakon što Whisper transkribira, pretražuje izlaz pomoću Levenshtein distance i zamijeni pogrešne kandidate s točnima.
Konkretno: ako Whisper napiše „Stjepan Beđić", a rječnik kaže Stjepan Bedić, post-processor to zamijeni. Ako rječnik nema unos, kandidata se ne dira.
Što staviti u rječnik
1. Vlastita imena
Imena gosti epizode, voditelja, ljudi koji se spominju. Whisper je trenirao na multilingvalnom korpusu, hrvatska imena rijetko se pojavljuju. Posebno: imena s ć/č/š/ž/đ padaju u >40% slučajeva.
2. Brendovi
Ime vlastite kompanije, ključnih partnera, glavnih konkurenata. „ETF Airways" će bez rječnika Whisper napisati kao „ETF Eirvejs" ili „ETF Air Vejs".
3. Termini iz vaše industrije
Tech podcast: Kubernetes, Postgres, pipeline, latency. Sport: polufinale Lige prvaka, tranzicija. Medicina: intubacija, tahikardija. Whisper na hrvatskom obično pravilno hvata termine koje deklinirate (tahikardiju, tahikardije) jedan put, drugi put ne. Rječnik fiksira.
4. Mjesta i institucije
Mjesta s nestandardnim pravopisom (Šibenik, Đakovo, Šentjur). Institucije (HRT, HUP, FER, FFZG).
5. Brojevi koji zvuče kao riječi
Ako u podcastu često spominjete model auta („Octavia", „911"), serije („GPT-4", „Whisper-v3") ili godine („'91", „2026."), rječnik pomaže fiksirati standardni zapis.
Što NE stavljati
- Obične hrvatske riječi. Whisper ih hvata. Nemojte upisivati
dobro,loše,epizoda. Krade Levenshtein-budget i ne dodaje vrijednost. - Sinonime koje hoćete zamijeniti. Rječnik je za ispravljanje pogrešaka, ne za stilsku zamjenu. Zamjenu
auto → automobilnapravite ručno u review-u, ne kroz rječnik. - Cijele rečenice. Levenshtein na rečenicama je nepouzdan. Ostavite na nivou riječi i kratkih fraza (2 do 4 riječi).
Format
Plain text, jedna točna varijanta po liniji. Post-processor traži pogrešne kandidate u Whisper outputu putem Levenshtein distance i zamijeni ih s najbližom stavkom iz rječnika:
Stjepan Bedić
Roko Kalafatić
ETF Airways
Kubernetes
HRT
LumiVerse d.o.o.
Ne nabrajate pogrešne varijacije. Pipeline ih sam hvata po Levenshtein sličnosti unutar uskog praga. „Stjepan Beđić" → „Stjepan Bedić" prolazi (dva znaka razlike). „Beđo" → „Bedić" ne, namjerno, da ne mijenja riječi koje nisu očito ciljane.
Koliko stavki je dovoljno
Iz Phase-0 testiranja na 3-kanal benchmark setu, okvirne smjernice (ne tvrde brojke):
- < 20 stavki: marginalno. Pokriva par redovnih gostiju, ali ne mijenja WER značajno.
- 50 do 80 stavki: slatka točka za prosjek kanala. Pokriva voditelje, redovne goste, ključne brendove, glavnu industrijsku terminologiju.
- 200+ stavki: diminishing returns u našem mjerenju. Recovery raste sporije nego ranije.
Na Netokracija kanalu (12.48% baseline WER, code-switching heavy), rječnik od ~60 stavki pokrivajući engleske termine + voditelje vraća približno 3.5 postotnih bodova WER-a. To netokraciju spušta ispod 9%. Već u korisnijem rasponu.
Kako i kada ažurirati
- Prije svake nove epizode dodajte goste i ključne termine koji su novi za taj razgovor.
- Mjesečna revizija: pregledajte review UI, pogledajte koje pogreške se ponavljaju, dodajte ih.
- Verzioniranje: rječnik je tekstualni file. Stavite ga u git ili napravite copy prije velikih promjena. Ne želite slučajno obrisati pola unosa.
Korak po korak kako početi danas
- Otvorite svoj zadnji obrađeni video u dashboardu.
- Skrolirajte SRT. Bilježite riječi koje su krivo. Vlastita imena prvo.
- Otvorite Settings → Rječnik i upišite 20 do 30 ispravki.
- Pošaljite sljedeći video kroz pipeline.
- Usporedite WER (vidite ga u dashboardu) prije i poslije.
Većina kanala vidi vidljivu razliku na drugom run-u, već s desetak unosa.
Što ako još nemate kanal spojen?
Spojite kanal, mi obradimo prvi video, pošaljete prijedlog rječnika, ponovimo. Probajte besplatno. Bez kartice, prvi tjedan plaćamo mi.



