Acabat el 2021, us presentem un resum de les principals fites que hem assolit aquest any.
Dades del web i avenços en els serveis associats
Tanquem l’any amb 77,6 milions de visualitzacions de pàgines en el nostre web, i això representa un increment d’un 12 % respecte a l’any 2020.
- El corrector ha acabat el 2021 amb 34 milions de visites, un increment del 16,5 % respecte al 2020.
- El diccionari de sinònims acomiada l’any amb 13 milions de visites, amb un increment del 0,5 % anual, però un increment del 10 % en el segon semestre, que es correspon amb la nova versió del diccionari de sinònims. Les 5 expressions més cercades en el diccionari de sinònims durant el 2021 són: a més a més, fer, tenir, realitzar i important.
- Finalment, el traductor acaba el 2021 amb 17,6 milions de visites, un increment del 5,28% respecte a 2020.
Noves iniciatives presentades durant el 2021
Nova versió del Catalanitzador
Aquest any hem presentat una nova versió del Catalanitzador, un programa que posa a l’abast de qualsevol usuari tenir de manera senzilla en català els ordinadors amb Microsoft Windows o Apple macOS. Aquesta nova versió inclou compatibilitat per a catalanitzar Microsoft Windows 11, Microsoft Office 2019 i Microsoft Office 2021. També s’han actualitzat i revisat totes les altres aplicacions. A més, és compatible amb el macOS Monterrey.
Acabem l’any 2021 amb un total de 192.000 catalanitzacions des que el projecte es va presentar.
Diccionari de sinònims totalment renovat
El 2021 també hem presentat el nou diccionari de sinònims. Es tracta d’un diccionari reescrit de cap i de nou: les 9.000 paraules de l’antic diccionari han passat a ser 35.000 paraules. Totes aquestes paraules són agrupades en 7.000 grups etiquetats amb la corresponent categoria gramatical. A més, s’han afegit marques de col·loquialismes, vulgarismes i arcaismes, i altres aclariments, com ara l’àmbit d’ús del terme. Es mostra la flexió de gènere de noms i adjectius, en cas que en tinguin, i totes les paraules que poden portar informació extra amb més sinònims són enllaços clicables.
El nou servei de consulta web del diccionari de sinònims ha incrementat el 38,8 % el nombre de visites amb resultats i les consultes de sinònims sense resposta s’han reduït un 68 %. Les dades del diccionari de sinònims estan disponibles amb llicència CC-BY i està previst de distribuir el diccionari de sinònims en el paquet ofimàtic LibreOffice, per a poder-lo consultar sense necessitat de connexió a Internet.
Millores del servei de traducció neuronal amb dades i models lliures
Hem incorporat al servei de traducció tres nous parells de llengües: català-italià, alemany-català i neerlandès-català, que s’afegeixen als idiomes ja existents. També han estat novetat els parells català-francès i català-portuguès amb tecnologia neuronal, que tenen una qualitat més alta que el sistema que usàvem abans.
A més, publiquem 14 models de traducció neuronal, que són els models lliures amb millor qualitat que s’han publicat fins ara per al català (segons avaluació externa). Aquests models es poden fer servir lliurement, tant des del web de Softcatalà com des de qualsevol ordinador.
Publiquem dos nous corpus que permeten crear models de traducció neuronal en parells de llengües nous.
Common Voice i models de reconeixement de la parla
En el projecte Common Voice de Mozilla, durant l’any 2021, s’han aconseguit enregistrar i validar 250 hores de veu, amb un total acumulat des de juny del 2018 de 917 hores validades, gràcies a la participació de més de 6.600 persones. El català és la 6a llengua amb més hores validades del projecte Common Voice. L’objectiu inicial era arribar a 1.000 hores i desenvolupar un motor de reconeixement de la parla lliure per al català. Les dades del Common Voice estan a disposició de tothom que vulgui, lliurement i de franc. Per exemple, Facebook ja les fa servir per a traduir veu en català a text en anglès, o veu en anglès a text en català.
Hem publicat els primers models de reconeixement de veu basats en wav2vec2, que es poden provar, amb el micròfon o pujant un fitxer d’àudio, a la plataforma Huggingface. El millor model té una taxa d’error WER de només 5,98% en el corpus “test” de Common Voice!
Les nostres comparances, d’Eugeni S. Reig
Hem col·laborat a fer realitat el recull de modismes comparatius valencians d’Eugeni S. Reig Les nostres comparances. Aquest projecte s’ha fet amb la col·laboració de Rodamots i Softvalencià, que ha aportat la programació de la pàgina web.
El recull es compon de més de 3.500 modismes comparatius d’igualtat, inferioritat i superioritat, i és d’accés públic i gratuït en l’enllaç https://reig.lletres.net/comparances/.
Projectes de traducció
L’any 2021 hem continuat treballant en noves versions del navegador Firefox, el paquet ofimàtic LibreOffice, l’escriptori GNOME, el programa de retoc fotogràfic Gimp i el programa de dibuix vectorial Inkscape.
Quant a Softcatalà
Softcatalà és una associació sense afany de lucre que treballa per la normalització de la llengua catalana en el sector informàtic relacionat amb Internet i les noves tecnologies, a partir de la traducció de programari lliure i de distribució gratuïta. Per a més informació sobre els programes que aquesta associació ha traduït al català, podeu consultar el seu lloc web a https://www.softcatala.org.