Custom dictionary: kako jedan tekstualni file mijenja vašu WER za 3 postotna boda

Najveća pojedinačna intervencija koja popravlja hrvatski Whisper output nije veći model ni finetuning. To je tekstualna datoteka.

Čista naracija s domaćim govornicima prolazi ispod 2% WER bez ikakve pomoći. Sadržaj s puno vlastitih imena i engleske terminologije skoči na 12%+. Razlika između ta dva svijeta? Rječnik od pedesetak unosa.

Što je custom dictionary

Lista riječi i fraza koje Whisper vjerovatno čuje pogrešno, sa točnim oblikom. Naš pipeline, nakon što Whisper transkribira, pretražuje izlaz pomoću Levenshtein distance i zamijeni pogrešne kandidate s točnima.

Konkretno: ako Whisper napiše „Stjepan Beđić", a rječnik kaže Stjepan Bedić, post-processor to zamijeni. Ako rječnik nema unos, kandidata se ne dira.

Što staviti u rječnik

1. Vlastita imena

Imena gosti epizode, voditelja, ljudi koji se spominju. Whisper je trenirao na multilingvalnom korpusu, hrvatska imena rijetko se pojavljuju. Posebno: imena s ć/č/š/ž/đ padaju u >40% slučajeva.

2. Brendovi

Ime vlastite kompanije, ključnih partnera, glavnih konkurenata. „ETF Airways" će bez rječnika Whisper napisati kao „ETF Eirvejs" ili „ETF Air Vejs".

3. Termini iz vaše industrije

Tech podcast: Kubernetes, Postgres, pipeline, latency. Sport: polufinale Lige prvaka, tranzicija. Medicina: intubacija, tahikardija. Whisper na hrvatskom obično pravilno hvata termine koje deklinirate (tahikardiju, tahikardije) jedan put, drugi put ne. Rječnik fiksira.

4. Mjesta i institucije

Mjesta s nestandardnim pravopisom (Šibenik, Đakovo, Šentjur). Institucije (HRT, HUP, FER, FFZG).

5. Brojevi koji zvuče kao riječi

Ako u podcastu često spominjete model auta („Octavia", „911"), serije („GPT-4", „Whisper-v3") ili godine („'91", „2026."), rječnik pomaže fiksirati standardni zapis.

Što NE stavljati

Obične hrvatske riječi. Whisper ih hvata. Nemojte upisivati dobro, loše, epizoda. Krade Levenshtein-budget i ne dodaje vrijednost.
Sinonime koje hoćete zamijeniti. Rječnik je za ispravljanje pogrešaka, ne za stilsku zamjenu. Zamjenu auto → automobil napravite ručno u pregledu, ne kroz rječnik.
Cijele rečenice. Levenshtein na rečenicama je nepouzdan. Ostavite na nivou riječi i kratkih fraza (2 do 4 riječi).

Format

Plain text, jedna točna varijanta po liniji. Post-processor traži pogrešne kandidate u Whisper outputu putem Levenshtein distance i zamijeni ih s najbližom stavkom iz rječnika:

Stjepan Bedić
Roko Kalafatić
ETF Airways
Kubernetes
HRT
LumiVerse d.o.o.

Ne nabrajate pogrešne varijacije. Pipeline ih sam hvata po Levenshtein sličnosti unutar uskog praga. „Stjepan Beđić" → „Stjepan Bedić" prolazi (dva znaka razlike). „Beđo" → „Bedić" ne, namjerno, da ne mijenja riječi koje nisu očito ciljane.

Koliko stavki je dovoljno

Iz Phase-0 testiranja na 3-kanal benchmark setu, okvirne smjernice (ne tvrde brojke):

< 20 stavki: marginalno. Pokriva par redovnih gostiju, ali ne mijenja WER značajno.
50 do 80 stavki: optimalan raspon za prosjek kanala. Pokriva voditelje, redovne goste, ključne brendove, glavnu industrijsku terminologiju.
200+ stavki: povrat opada u našem mjerenju. Smanjenje raste sporije nego ranije.

Na Netokracija kanalu (12.48% baseline WER, code-switching heavy), rječnik od ~60 stavki pokrivajući engleske termine + voditelje vraća približno 3.5 postotnih bodova WER-a. To netokraciju spušta ispod 9%. Već u korisnijem rasponu.

Kako i kada ažurirati

Prije svake nove epizode dodajte goste i ključne termine koji su novi za taj razgovor.
Mjesečna revizija: pregledajte review UI, pogledajte koje pogreške se ponavljaju, dodajte ih.
Verzioniranje: rječnik je tekstualni file. Stavite ga u git ili napravite copy prije velikih promjena. Ne želite slučajno obrisati pola unosa.

Korak po korak kako početi danas

Otvorite svoj zadnji obrađeni video u dashboardu.
Skrolirajte SRT. Bilježite riječi koje su krivo. Vlastita imena prvo.
Otvorite Settings → Rječnik i upišite 20 do 30 ispravki.
Pošaljite sljedeći video kroz pipeline.
Usporedite WER (vidite ga u dashboardu) prije i poslije.

Većina kanala vidi vidljivu razliku na drugom run-u, već s desetak unosa.

Što ako još nemate kanal spojen?

Spojite kanal, mi obradimo prvi video, pošaljete prijedlog rječnika, ponovimo. Probajte besplatno. Bez kartice, prvi tjedan plaćamo mi.

whisper custom-dictionary hrvatski-jezik wer post-processing

PodijeliteLinkedIn

Povezani članci

Vintage CRT televizor u tamnoj sobi, jedna topla amber traka preko ekrana kao caption.

Vodiči16. 05. 2026.7 min

Kako dodati hrvatske titlove na Youtube

Tri načina za hrvatski caption track na vašem kanalu. Diakritike, jezični kod, format datoteke. Što YouTube radi dobro, gdje pada, kada se isplati automatizacija.

Spektrogram govora s istaknutim greškama transkripcije.

Tehnika04. 05. 2026.4 min

Zašto Whisper griješi na hrvatskom

WER 1.85–12.48% ovisno o kanalu. Čista pripovijest ide ispod 2%, code-switching diže grešku 6×. I tri intervencije koje pomažu.

Tri logotipa ASR pružatelja s ocjenama postavljenim preko.

Usporedbe12. 05. 2026.4 min

Whisper vs Deepgram vs AssemblyAI: zašto Titlomat radi na Whisper-large-v3

Tri kandidata, jedna odluka. Što smo testirali, što hrvatski jezik traži, i gdje druga dva padaju u praksi.