Disponible el projecte Common Voice en català

Softcatalà presenta el projecte Common Voice en català de Mozilla per a elaborar un conjunt d'enregistraments de veu lliure.

2 de juliol de 2018

Presentació

El projecte Common Voice és la iniciativa de Mozilla per a ajudar les màquines a aprendre com parlem les persones de debò. La veu és natural, la veu és humana. És per això que volem crear tecnologies de veu de qualitat per a les màquines. Però el desenvolupament d’aquests sistemes requereix un gran volum de dades de veu, amb un cost força elevat, que moltes empreses només financen per a unes poques llengües.

La majoria de les dades usades per grans companyies no estan disponibles per a tothom. Considerem que això frena la innovació. Per això s’ha iniciat el projecte Common Voice, per tal de fer que la tecnologia de reconeixement de la veu estigui oberta a tothom. Per a aconseguir-ho, la proposta de Mozilla és recollir i validar un corpus lingüístic lliure de forma col·laborativa en qualsevol llengua amb una comunitat prou activa.

Un objectiu clau per a qualsevol llengua

L’objectiu del Common Voice és la creació d’un corpus de veu lliure. Això permetrà que tot tipus d’aplicacions i ginys puguin gaudir de sistemes de veu. Per exemple:

La comunitat Mozilla està col·laborant activament perquè, a partir d’aquests corpus, es puguin crear models lliures de reconeixement de veu, que eventualment acabaran incorporant els productes de Mozilla, com ara el Firefox.
Amb aquestes dades es pot millorar l’assistent de veu de codi obert MyCroft perquè reconegui l’usuari quan parla català.

Les interfícies d’usuari mitjançant la veu estan esdevenint ràpidament un dels elements clau d’interacció entre l’usuari i tot tipus d’aplicacions i serveis. A diferència d’altres iniciatives similars, el Common Voice publica les dades amb llicència CC0, cosa que permetrà que qualsevol empresa, gran o petita, pugui usar les dades lingüístiques del Common Voice per a afegir suport per al català de forma lliure i gratuïta.

Com podeu ajudar?

Per poder generar models de reconeixent de veu de qualitat calen, aproximadament, 1.000 hores d’enregistraments de veu. Qualsevol persona a partir de 19 anys hi pot participar. Ens interessa comptar amb la diversitat més gran possible d’edats, gènere i dialectes.

Creeu un perfil a la web del Common Voice. Això és opcional però important, ja que després permetrà extraure estadístiques com el gènere o dialectes i generar models lingüístics més acurats.
Després, ja podeu començar a enregistrar talls de veu llegint en veu alta els textos que se us presentin.

Aquesta és la manera més senzilla de col·laborar-hi. Si teniu temps i esma, també ens calen persones que ens ajudin en els següents àmbits:

Persones amb un domini excel·lent del català que ens ajudin a valorar els talls de veu contribuïts per altri.
Persones que ens ajudin en la traducció de la interfície del Common Voice al català.
Persones, entitats, empreses o administracions que vulguin ajudar en la creació del corpus de lectura, creant o cedint frases al projecte amb llicència CC0.

Si teniu cap dubte, disposeu d’un canal de Telegram sobre tecnologies de la parla on podeu fer qualsevol consulta.

Quant a Softcatalà

Softcatalà és una associació sense afany de lucre que treballa per la normalització de la llengua catalana en el sector informàtic relacionat amb Internet i les noves tecnologies, a partir de la traducció de programari lliure i de distribució gratuïta. Per a més informació sobre els programes que aquesta associació ha traduït al català, podeu consultar el seu lloc web a https://www.softcatala.org.

Disponible el projecte Common Voice en català

Comentaris

Rosa Culí

Joan Fonollosa

Aleix Vidal i Gaya

Marti Purull

Anna

Anna

Joan Montané

Albert Orriols

Artur