YouTubeov auto-translate je impresivan tehnološki uradak. Generiran iz Googleove ASR + MT linije, podržava 100+ jezika, radi automatski na svakom uploadanom videu. Za većinu jezika na engleski. Radi dovoljno dobro.
Pitanje koje rješavamo ovim člankom: koliko je dovoljno dobro dovoljno za hrvatski podcast koji želi međunarodnu publiku?
Metodologija
8 epizoda iz našeg benchmark seta (proširenog s pet dodatnih kanala):
- Lider Lab. 1 Epizoda
- Netokracija „Slažem se / Ne". 1 Epizoda
- Superhuman Life. 1 Epizoda
- 5 dodatnih, miks žanrova (poslovanje / tech / društvo)
Po epizodi: 3-minutni sample na istom timestamp-u. Za svaki sample, generirano je dva EN caption tracka:
- YT auto-translate: eksportiran iz YouTube Studio nakon 24 sata od upload-a.
- Titlomat: naš pipeline (WhisperX → custom dict → lokalni 70B prijevod).
3 native English speakera (jedan s media background-om) ocjenjivali su svaki par bez znanja koji je koji (slijepi rating). Ljestvica 1-5 po četiri osi:
- Faithfulness: koliko prijevod nosi izvorni smisao.
- Fluency: koliko zvuči kao prirodan engleski.
- Terminology: koliko su tehnički pojmovi i imena točni.
- Timing alignment: koliko se titl pojavljuje u sinkronu s govorom.
96 ratinga ukupno (8 × 4 × 3).
Rezultati
[Bit će popunjeno kad raters završe ocjenjivanje.]
| Os | YT auto-translate | Titlomat | Razlika |
|---|---|---|---|
| Faithfulness | TBD | TBD | TBD |
| Fluency | TBD | TBD | TBD |
| Terminology | TBD | TBD | TBD |
| Timing alignment | TBD | TBD | TBD |
Konkretni primjeri
[5 ComparisonTable-ova s realnim outputom. TBD nakon Story 14.]
Gdje je YT auto-translate dovoljno dobar
Hipoteze koje testiramo:
- Single-speaker monologue, formalna registar, malo vlastitih imena.
- Tehnički slabo specijalizirane teme.
- Govornici koji zaobilaze code-switching.
Gdje nije
- Panel s više govornika (timing alignment pada).
- Tehnička terminologija (čisti gubitak na Terminology osi).
- Brendovi i imena (Faithfulness pada gotovo na nulu).
- Brzi govor (ASR baseline pada pa MT nasljeđuje šum).
Kad isplati ulaganje
[Argumented based on real numbers kad rezultati landaju.]
Caveat-i
- Sample size n=8 je mali. Statistička signifikantnost nije primarna. Kvalitativni paterni jesu.
- MT modeli su versionirani. YouTube i naš pipeline oba se mijenjaju. Ovaj test je snimak u vremenu.
- Native EN raters imaju vlastite biaseve. Pokušat ćemo to detektirati interrater agreement-om (Cohen's kappa).
Što očekujemo
Ako rezultati pokažu malu razliku (Titlomat <0.5 prosječno bolji), revidiramo argumentaciju za ručno-generirane titlove i pivot-amo proizvod prema use-case-ima gdje razlika jest signifikantna (panel, tehnički kanali).
Ako rezultati pokažu veliku razliku (>1.0 prosječno), to je glavni argument koji koristimo u marketingu.
Ako rezultati budu mješoviti, što je najvjerojatnije, članak postaje vodič „kad se isplati uložiti, kad ne".



