Presentem un nou servei de transcripció d'àudio i vídeo a text. Aquest servei és útil per a transcriure enregistraments, apunts o pòdcasts a text, o per a crear subtítols per a vídeos.
Després d’unes setmanes en proves, Softcatalà presenta oficialment el servei de transcripció d’àudio i vídeo a text. Aquest servei, també anomenat dictat, es troba disponible al web de Softcatalà.
Una vegada més, l’associació sense ànim de lucre posa a l’abast del públic catalanoparlant una eina per a facilitar i promoure l’ús del català a l’àmbit digital i tecnològic.
Amb aquest nou servei serà més senzill transcriure els fitxers en català d’àudio i vídeo a text, sense necessitat d’eines en altres llengües. Es basa en models lliures de xarxes neuronals entrenades per a processar els fitxers i generar el text corresponent.
Com s’utilitza el servei de transcripció?
El servei de transcripció és molt fàcil d’utilitzar. Només cal enviar un fitxer d’àudio o vídeo en algun dels següents formats: MP3, WAV, OGG, FLAC, AVI, MP4, MOV o MKV.
Aquest fitxer es processarà als nostres servidors i, quan finalitze aquesta acció, s’enviarà un correu electrònic a l’usuari amb l’enllaç a la transcripció. La duració d’aquest procés, o el temps d’espera, depén del nombre de transcripcions que hi haja pendents de processar. El fitxer s’esborrarà dels nostres sistemes 72 hores després de ser transcrit.
Un cop finalitzada la transcripció, es pot baixar el text de la transcripció tant en format text com en SubRip (str), que és el format més popular de subtítols.
A més de baixar els textos, també hi ha l’opció d’un editor en línia que permet acabar d’esmenar la transcripció, ja que aquests serveis cometen errades. Com ocorre amb qualsevol servei automàtic, sempre cal que els usuaris revisen els resultats per a garantir que no s’hi han comès errades.
Informació addicional
El servei que presentem transcriu el text del fitxer d’àudio/vídeo, però també la puntuació i les majúscules, cosa que fins ara cap altre sistema oferia.
Per a poder oferir aquest servei, utilitzem els models de transcripció lliures de l’empresa OpenAI, anomenats Whisper. Softcatalà té un projecte focalitzat en millorar-los per al català.
La privadesa de dades és un tema crucial per a nosaltres. En aquest sentit, l’opció de fer la transcripció a través del nostre web podria no ser apta per a tothom. Per això, hem estat treballant amb el projecte Buzz perquè incorporen el català i els mateixos models que oferim, perquè el servei de transcripció estiga disponible al vostre propi ordinador. Així, a més, podeu evitar entrar a la cua de transcripcions del nostre sistema, el que reduiria el temps d’espera en rebre la transcripció.
Cal destacar, però, que programes com el Buzz utilitzen els recursos del vostre equip (CPU/GPU) per a fer la transcripció, per la qual cosa el temps que hi trigue dependrà de la potència del vostre maquinari.
Quant a Softcatalà
Softcatalà és una associació sense afany de lucre que treballa per la normalització de la llengua catalana en el sector informàtic, Internet i les noves tecnologies. Per a més informació sobre els projectes de l’associació, podeu consultar el seu lloc web a https://www.softcatala.org/.
Teresa
L'àudio origen, sempre ha d'ésser en català? accepta altres idiomes? gràcies.
Respon