Common Voice en català, 4 anys i mig de cursa de fons

Compartiu

Estat del projecte Common Voice en català i objectius durant el 2024


Recentment, s’ha publicat un nou conjunt de dades del projecte Common Voice, impulsat per Mozilla, el corpus de dades lliure de veu i textos. En aquesta nova versió, el català és la llengua amb més hores enregistrades i validades. Un èxit de participació ciutadana! Expliquem algunes coses sobre aquest projecte.

El projecte Common Voice va néixer el juny de 2017 per a crear un corpus d’enregistraments de veu i transcripcions, en anglès, de domini públic per a poder desenvolupar tecnologies de la veu, especialment reconeixement de la parla. Mesos després, el projecte esdevindria multilingüe. L’estiu de 2018 vam implicar-nos en la creació del Common Voice en català. Aconseguírem textos de domini públic de sota les pedres. Alguns autors i traductors van cedir la seva obra per a extraure frases en català lliures de drets d’autor i alimentar Common Voice. L’objectiu inicial? 1.000 hores d’enregistraments de veu alineat amb la transcripció i poder desenvolupar tecnologies lingüístiques de veu per al català. Per exemple, poder entrenar un motor de reconeixement de la parla de qualitat, la primera pedra per a un assistent de veu en català. Objectiu final? 10.000 hores de talls de veu per a tenir un corpus.

Des d’aleshores, i gràcies a l’impuls i participació decisius del projecte Aina, de les Secretaries de Política Lingüística i Polítiques Digitals de la Generalitat de Catalunya, del govern de les Illes Balears, del projecte Vives i d’entitats com Òmnium i Plataforma per la Llengua, el corpus de veus en català ha crescut enormement, fins a assolir les 3.500 hores d’enregistraments. Diverses iniciatives, com la recollida d’enregistraments a l’Espai Mallorca, la campanya de vídeos de joves influenciadors i jugadors del FC Barcelona o els actes de promoció al Palau Blaugrana durant els partits de bàsquet del Barça contra el Reial Madrid i el València Basket Club han ajudat a nodrir d’una pluralitat notable al projecte. Però l’èxit ha estat, especialment, gràcies als més de 35.000 participants, que han fet que el català assoleixi la primera posició: 3.500 hores enregistrades, 2.649 hores validades, 35.619 participants i 70,65 GB de dades. Impressionant!

Les tecnologies de la llengua han canviat molt en aquests 4 anys i mig. Amb menys dades es poden fer millors models. Ja no calen 10.000 hores de dades de veu i text alineat. Ara, amb moltíssimes hores de veu i unes poques hores alineades d’àudio i text es poden aconseguir excel·lents resultats.

Vol dir això que les dades de Common Voice no serveixen de res? Tot el contrari! Sí que serveixen, i molt. Diverses empreses usen les dades de Common Voice per a desenvolupar tecnologies de la parla, com ara Google amb el model AudioPaLM, o per a avaluar-ne la qualitat, com ara el model Whisper d’OpenAI. Només el 2023, més de 20 articles científics han fet ús d’aquestes dades per a fer estudis i recerca en tecnologies de la llengua. No sabrem mai del cert tots els projectes que empren les dades de Common Voice, perquè com que les dades tenen llicència CC0, tothom pot utilitzar-les sense haver de cintar-ne la font. Però alguns projectes sí que citen l’ús de Common Voice, i el català hi és gràcies a aquestes dades.

Common Voice en català és un projecte madur. Hem assolit unes fites extraordinàries. Ja no calen 10.000 hores. Ens calen més varietat en els tipus d’àudios (converses, xerrades, diàlegs…) que amb Common Voice no podem cobrir, perquè està pensant per a frases curtes. També tenim una sobrerepresentació de parlants homes de mitjana edat de l’àrea metropolitana de Barcelona. Ens falten dades de veus femenines, joves, velles, i de parlants valencians, balears, rossellonesos i nord-occidentals.

Infografia Common Voice en català, desembre 2023

Aleshores, què ens agradaria fer durant el 2024? Corregir els biaixos de Common Voice. Tenim moltes dades d’homes de més de 50 anys parlants de català central. Això és bo. Però tenim poques dades de veus femenines. Poques dades de joves i de gent gran. Poques veus valencianes, o mallorquines. O rosselloneses. Volem millorar la varietat dialectal i de gènere a Common Voice en català.

El nostre objectiu per al 2024 és aconseguir:

  • 300 hores de valencià (ara en tenim 150)
  • 100 hores en balear (ara en tenim 40)
  • 200 hores de nord-occidental (ara en tenim 140)
  • 100 hores de rossellonès (ara en tenim 60)
  • 300 hores de veus joves (<30 anys, ara en tenim 190)
  • 1000 hores de veus femenines (ara en tenim 700)
  • 300 hores de veus d’edat avançada (>70 anys, ara en tenim 135)

Per què? Perquè volem que la tecnologia que se’n derivi funcioni bé per a tothom, parlin com parlin.

Ens voleu ajudar?

Si teniu algun dels perfils buscats, el més senzill és que doneu la vostra veu al Common Voice en català. Tot i que no és obligatori, és important que definiu les vostres dades demogràfiques al perfil abans de participar-hi. Si teniu cap dubte, podeu unir-vos al grup de col·laboradors a Telegram.

Si no teniu cap dels perfils, també ens podeu ajudar, revisant i validant els talls de veu que han enregistrat altres participants. O també podeu aportar textos breus perquè algú altri els enregistri.
En qualsevol cas, també podeu fer-ne difusió perquè hi participin dones, joves i parlants de valencià, rossellonès, tortosí, pallarès, lleidatà, mallorquí, menorquí i eivissenc.

Quant a Softcatalà

Softcatalà som una associació sense afany de lucre que treballa per la normalització de la llengua catalana en el sector informàtic, Internet i les noves tecnologies, a partir de la traducció de programari lliure de distribució gratuïta i creació de recursos lingüístics lliures i oberts a tothom. Per a més informació sobre els programes traduïts i els projectes de l’associació, podeu consultar el nostre lloc web a http://www.softcatala.org.

 


Comentaris