Presentem 14 models de traducció neuronals i les dades obertes que permeten crear-los

Compartiu

Presentem 14 models de traducció neuronals i les dades obertes que permeten crear-los

A partir d’avui el traductor de Softcatalà disposa de dos nous parells de llengües, català-italià i neerlandès-català, que s’afegeixen als idiomes ja existents. També són novetat els parells català-francès i català-portuguès amb tecnologia neuronal, que tenen una qualitat més alta que el sistema que usàvem abans.

A més, publiquem 14 models de traducció neuronal, que són els models lliures amb millor qualitat que s’han publicat fins ara per al català (segons avaluació externa).  Aquests models es poden fer servir lliurement, tant des del web de Softcatalà com des del vostre propi ordinador.

Publiquem dos nous corpus que permeten crear models de traducció neuronal en parells de llengües nous.

La importància de la traducció 

Els traductors automàtics redueixen el temps i el cost de la traducció de manera considerable. En la nostra experiència en traducció informàtica, poden reduir el temps fins a una tercera part. Fan possibles edicions de diaris en català, programari informàtic, així com dotzenes de projectes d’altres empreses, especialment de l’àmbit públic i universitari, que d’altra manera no serien possibles. Sense la traducció automàtica, tindríem molta menys producció de productes i serveis en català.

Corpus i dades obertes

Publiquem dos nous corpus (Europarl i Tilde) que són claus per a permetre la creació de nous models neuronals. El corpus de l’Europarl conté textos dels procediments del Parlament Europeu. El corpus que publiquem conté 1,9 milions de frases alineades del català a l’anglès. El corpus TildeModel conté dades recopilades de llocs web del sector públic i conté 3,4 milions de frases.

Aquests dos corpus s’han creat traduint del castellà al català usant Apertium, que té una qualitat alta en aquest parell de llengües. A través d’aquests corpus podem pivotar a llengües com neerlandès-català o altres de què fins ara no teníem prou corpus per a crear models de traducció neuronal.

Models

Els models es poden baixar des del repositori https://github.com/Softcatala/nmt-models i es poden fer servir amb el motor OpenNMT.

Els models s’han optimitzat amb el corpus Flores101, un corpus d’avaluació de sistemes de traducció automàtica publicat aquest any per Facebook.

Tots els models compleixen la nova normativa publicada pel DIEC el 2017, i són capaços d’entendre textos amb normativa antiga i nova, però, en traduir al català, sempre generen la nova.

Quant a Softcatalà

Softcatalà és una associació sense afany de lucre que treballa per la normalització de la llengua catalana en l’àmbit d’internet i les noves tecnologies, a partir de la traducció de programari lliure i de distribució gratuïta. Per a més informació, podeu consultar el lloc web https://www.softcatala.org.

 


Comentaris