Opcions avançades de la transcripció

Compartiu

Mostra opcions específiques per generar fitxers de subtítols (.srt)

Nombre màxim de caràcters abans de saltar de línia i Nombre màxim de línies per subtítol

Amb la configuració per defecte aquests és un exemple de subtítols:

00:00:00,000 –> 00:00:04,120 Amb matèria de finançament públic universitària, crec, sincerament,
00:00:04,120 –> 00:00:09,800 que hi ha una línia vermella que no hauríem de traspassar si Catalunya

Amb l’opció Nombre màxim de caràcters abans de saltar de línia podem indicar el màxim de caràcters per línia.
L’opció Nombre màxim de línies per subtítol permet indicar en que moment volem saltar de línia.

Per exemple, el mateix fitxer amb Nombre màxim de caràcters abans de saltar de línia  a 20 i Nombre màxim de caràcters abans de saltar de línia  a 2, quedaria així:

00:00:00,000 –> 00:00:06,400
En matèria de finançament públic universitària,
crec, sincerament, que hi ha una línia vermella

00:00:06,400 –> 00:00:13,640
que no hauríem de traspassar si Catalunya vol
tenir assegurat un futur competitiu amb el marc d

00:00:13,640 –> 00:00:20,760
‘un molt globalitzat. La universitat no és una
despesa, és una gran inversió pel país.

Ressalta cada paraula quan es pronuncia

Quan es selecciona aquesta opció, els subtítols facin l’efecte que quan cada paraula es pronúncia aquesta és ressalta. Exemple:

00:00:00,000 –> 00:00:00,340 <u>En</u> matèria de finançament públic universitària,

00:00:00,340 –> 00:00:00,720 En <u>matèria</u> de finançament públic universitària,

00:00:00,720 –> 00:00:00,880 En matèria <u>de</u> finançament públic universitària,

Baixada de dades format JSON

A part dels formats text o srt també oferim el JSON. Aquest és un format pensat per a ser processat informàticament i és útil si voleu post-processar o analitzar de forma automatitzada el resultat que oferim.

{
    "text": " Amb matèria de finançament públic universitària, crec, sincerament, que hi",
    "segments": [
        {
            "id": 1,
            "seek": 2128,
            "start": 0.0,
            "end": 4.12,
            ...

}

Avís: els noms d’aquests camps pertanyen a estructures internes del codi d’inferència que poden canviar en el futur.

Preguntes freqüents

Quina és la precisió en la predicció del temps on apareix una paraula determinada?

Els models de Whisper tenen una resolució aproximada d’un 1 segon en la predicció de segments de text, això vol dir frases que diu el parlant.

Whisper de sèrie no té una resolució en la predicció que permeti saber en quin segon exacte el parlant diu cada paraula de la transcripció.

Dit això, s’ha desenvolupat una tècnica que emprem per intentar fer-ho. Això és necessari en opcions avançades com ara Nombre màxim de caràcters abans de saltar de línia, Nombre màxim de línies per subtítol o Ressalta cada paraula quan es pronuncia que requereixen aquest nivell de resolució.

Quan s’activen aquestes opcions s’activa automàtica la predicció del temps a nivell de paraula que queda reflectida en el JSON que podeu baixar. Això també pot degradar una mica la qualitat de la transcripció.

Un mateix fitxer pot donar diferents transcripcions?

Part de la bona qualitat del model de transcripció es deguda al fet quan no es capaç de transcriure un fragment d’àudio aplica una sèrie de tècniques heurístiques que poden fer que els resultats varin en cada execució. Si es desactiven aquestes heurístiques, el resultat és sovint pitjor.

Alguns cops la mateixa frase apareix transcrita més d’un cop i no corresponent a l’àudio?

Els models neuronals basats en models seqüencials tendeixen a repetir frases. Hi ha un equilibri entre les estratègies que permeten reduir això i la capacitat del model a transcriure en situacions on es perd.