Tekstualna datoteka s listom imena i brendova, dio pipelinea.
Vodiči3 min čitanja

Custom dictionary: kako jedan tekstualni file mijenja vašu WER za 3 postotna boda

Vlastita imena, brendovi, žargon. Whisper ih svaki put pogađa iznova. Rječnik to popravi za jedno popodne i ostaje s vama dokle god kanal traje.

Najveća pojedinačna intervencija koja popravlja hrvatski Whisper output nije veći model ni finetuning. To je tekstualna datoteka.

Čista naracija s domaćim govornicima prolazi ispod 2% WER bez ikakve pomoći. Sadržaj s puno vlastitih imena i engleske terminologije skoči na 12%+. Razlika između ta dva svijeta? Rječnik od pedesetak unosa.

Što je custom dictionary

Lista riječi i fraza koje Whisper vjerovatno čuje pogrešno, sa točnim oblikom. Naš pipeline, nakon što Whisper transkribira, pretražuje izlaz pomoću Levenshtein distance i zamijeni pogrešne kandidate s točnima.

Konkretno: ako Whisper napiše „Stjepan Beđić", a rječnik kaže Stjepan Bedić, post-processor to zamijeni. Ako rječnik nema unos, kandidata se ne dira.

Što staviti u rječnik

1. Vlastita imena

Imena gosti epizode, voditelja, ljudi koji se spominju. Whisper je trenirao na multilingvalnom korpusu, hrvatska imena rijetko se pojavljuju. Posebno: imena s ć/č/š/ž/đ padaju u >40% slučajeva.

2. Brendovi

Ime vlastite kompanije, ključnih partnera, glavnih konkurenata. „ETF Airways" će bez rječnika Whisper napisati kao „ETF Eirvejs" ili „ETF Air Vejs".

3. Termini iz vaše industrije

Tech podcast: Kubernetes, Postgres, pipeline, latency. Sport: polufinale Lige prvaka, tranzicija. Medicina: intubacija, tahikardija. Whisper na hrvatskom obično pravilno hvata termine koje deklinirate (tahikardiju, tahikardije) jedan put, drugi put ne. Rječnik fiksira.

4. Mjesta i institucije

Mjesta s nestandardnim pravopisom (Šibenik, Đakovo, Šentjur). Institucije (HRT, HUP, FER, FFZG).

5. Brojevi koji zvuče kao riječi

Ako u podcastu često spominjete model auta („Octavia", „911"), serije („GPT-4", „Whisper-v3") ili godine („'91", „2026."), rječnik pomaže fiksirati standardni zapis.

Što NE stavljati

  • Obične hrvatske riječi. Whisper ih hvata. Nemojte upisivati dobro, loše, epizoda. Krade Levenshtein-budget i ne dodaje vrijednost.
  • Sinonime koje hoćete zamijeniti. Rječnik je za ispravljanje pogrešaka, ne za stilsku zamjenu. Zamjenu auto → automobil napravite ručno u review-u, ne kroz rječnik.
  • Cijele rečenice. Levenshtein na rečenicama je nepouzdan. Ostavite na nivou riječi i kratkih fraza (2 do 4 riječi).

Format

Plain text, jedna točna varijanta po liniji. Post-processor traži pogrešne kandidate u Whisper outputu putem Levenshtein distance i zamijeni ih s najbližom stavkom iz rječnika:

Stjepan Bedić
Roko Kalafatić
ETF Airways
Kubernetes
HRT
LumiVerse d.o.o.

Ne nabrajate pogrešne varijacije. Pipeline ih sam hvata po Levenshtein sličnosti unutar uskog praga. „Stjepan Beđić" → „Stjepan Bedić" prolazi (dva znaka razlike). „Beđo" → „Bedić" ne, namjerno, da ne mijenja riječi koje nisu očito ciljane.

Koliko stavki je dovoljno

Iz Phase-0 testiranja na 3-kanal benchmark setu, okvirne smjernice (ne tvrde brojke):

  • < 20 stavki: marginalno. Pokriva par redovnih gostiju, ali ne mijenja WER značajno.
  • 50 do 80 stavki: slatka točka za prosjek kanala. Pokriva voditelje, redovne goste, ključne brendove, glavnu industrijsku terminologiju.
  • 200+ stavki: diminishing returns u našem mjerenju. Recovery raste sporije nego ranije.

Na Netokracija kanalu (12.48% baseline WER, code-switching heavy), rječnik od ~60 stavki pokrivajući engleske termine + voditelje vraća približno 3.5 postotnih bodova WER-a. To netokraciju spušta ispod 9%. Već u korisnijem rasponu.

Kako i kada ažurirati

  • Prije svake nove epizode dodajte goste i ključne termine koji su novi za taj razgovor.
  • Mjesečna revizija: pregledajte review UI, pogledajte koje pogreške se ponavljaju, dodajte ih.
  • Verzioniranje: rječnik je tekstualni file. Stavite ga u git ili napravite copy prije velikih promjena. Ne želite slučajno obrisati pola unosa.

Korak po korak kako početi danas

  1. Otvorite svoj zadnji obrađeni video u dashboardu.
  2. Skrolirajte SRT. Bilježite riječi koje su krivo. Vlastita imena prvo.
  3. Otvorite Settings → Rječnik i upišite 20 do 30 ispravki.
  4. Pošaljite sljedeći video kroz pipeline.
  5. Usporedite WER (vidite ga u dashboardu) prije i poslije.

Većina kanala vidi vidljivu razliku na drugom run-u, već s desetak unosa.

Što ako još nemate kanal spojen?

Spojite kanal, mi obradimo prvi video, pošaljete prijedlog rječnika, ponovimo. Probajte besplatno. Bez kartice, prvi tjedan plaćamo mi.