Dva ekrana s različitim engleskim titlovima preko istog kadra hrvatskog podcasta.
Usporedbe3 min čitanja

YouTubeov auto-translate vs. native EN titlovi: bočni test na 8 epizoda

Tri native-speakera, 8 epizoda, 96 bočnih ratinga. Što gubite kad oslonite na YT auto-translate, i kad ne morate.

YouTubeov auto-translate je impresivan tehnološki uradak. Generiran iz Googleove ASR + MT linije, podržava 100+ jezika, radi automatski na svakom uploadanom videu. Za većinu jezika na engleski. Radi dovoljno dobro.

Pitanje koje rješavamo ovim člankom: koliko je dovoljno dobro dovoljno za hrvatski podcast koji želi međunarodnu publiku?

Metodologija

8 epizoda iz našeg benchmark seta (proširenog s pet dodatnih kanala):

  • Lider Lab. 1 Epizoda
  • Netokracija „Slažem se / Ne". 1 Epizoda
  • Superhuman Life. 1 Epizoda
  • 5 dodatnih, miks žanrova (poslovanje / tech / društvo)

Po epizodi: 3-minutni sample na istom timestamp-u. Za svaki sample, generirano je dva EN caption tracka:

  1. YT auto-translate: eksportiran iz YouTube Studio nakon 24 sata od upload-a.
  2. Titlomat: naš pipeline (WhisperX → custom dict → lokalni 70B prijevod).

3 native English speakera (jedan s media background-om) ocjenjivali su svaki par bez znanja koji je koji (slijepi rating). Ljestvica 1-5 po četiri osi:

  • Faithfulness: koliko prijevod nosi izvorni smisao.
  • Fluency: koliko zvuči kao prirodan engleski.
  • Terminology: koliko su tehnički pojmovi i imena točni.
  • Timing alignment: koliko se titl pojavljuje u sinkronu s govorom.

96 ratinga ukupno (8 × 4 × 3).

Rezultati

[Bit će popunjeno kad raters završe ocjenjivanje.]

OsYT auto-translateTitlomatRazlika
FaithfulnessTBDTBDTBD
FluencyTBDTBDTBD
TerminologyTBDTBDTBD
Timing alignmentTBDTBDTBD

Konkretni primjeri

[5 ComparisonTable-ova s realnim outputom. TBD nakon Story 14.]

YT auto-translate
Titlomat

Gdje je YT auto-translate dovoljno dobar

Hipoteze koje testiramo:

  • Single-speaker monologue, formalna registar, malo vlastitih imena.
  • Tehnički slabo specijalizirane teme.
  • Govornici koji zaobilaze code-switching.

Gdje nije

  • Panel s više govornika (timing alignment pada).
  • Tehnička terminologija (čisti gubitak na Terminology osi).
  • Brendovi i imena (Faithfulness pada gotovo na nulu).
  • Brzi govor (ASR baseline pada pa MT nasljeđuje šum).

Kad isplati ulaganje

[Argumented based on real numbers kad rezultati landaju.]

Caveat-i

  • Sample size n=8 je mali. Statistička signifikantnost nije primarna. Kvalitativni paterni jesu.
  • MT modeli su versionirani. YouTube i naš pipeline oba se mijenjaju. Ovaj test je snimak u vremenu.
  • Native EN raters imaju vlastite biaseve. Pokušat ćemo to detektirati interrater agreement-om (Cohen's kappa).

Što očekujemo

Ako rezultati pokažu malu razliku (Titlomat <0.5 prosječno bolji), revidiramo argumentaciju za ručno-generirane titlove i pivot-amo proizvod prema use-case-ima gdje razlika jest signifikantna (panel, tehnički kanali).

Ako rezultati pokažu veliku razliku (>1.0 prosječno), to je glavni argument koji koristimo u marketingu.

Ako rezultati budu mješoviti, što je najvjerojatnije, članak postaje vodič „kad se isplati uložiti, kad ne".