Preguntes més freqüents sobre el traductor neuronal

Compartiu

Com funciona?

Utilitzem models basats en xarxes neuronals. Les xarxes neuronals són una tecnologia d’aprenentatge automàtic en què, amb un corpus lingüístic prou extens, s’entrenen models que aprenen de manera autònoma a fer tasques específiques. En aquest cas, hem utilitzat un corpus (conjunt) de textos paral·lels en anglès i en català per a entrenar una xarxa neuronal, de manera que faci les traduccions més acurades possibles.

Massa tècnic?

Per a explicar el procés de manera senzilla, a la màquina li passem milions d’exemples de frases en anglès amb la seva correspondència en català. Ella dedueix «com funciona» la relació entre llengües i crea un model, que després usem per a traduir les frases noves que ens demanen els usuaris.

Quina privadesa ofereix?

Per defecte no desem cap dada (ni el text, ni adreça IP, res). Si l’usuari ens vol ajudar, li demanem que marqui la casella «Permet l’ús del text de manera anònima per a millorar el servei de traducció», que, per defecte, ve desmarcada. El codi, a més, és públic i es pot revisar.

Quin grau de qualitat té aquest traductor?

BLEU és la mètrica més popular, utilitzada per a avaluar la qualitat dels sistemes de traducció automàtica. És difícil dir que un traductor ho fa millor que un altre, ja que una mateixa frase es pot traduir correctament de diferents maneres. Es coneix que BLEU té les seves mancances, i depèn molt del tipus de text que es vulgui traduir.

Actualment tenim dues avaluacions fetes:

  • Una avaluació contra el corpus Tatoeba feta per nosaltres l’abril de 2020. La puntuació BLEU obtinguda va ser: Traductor neuronal de Softcatalà 0.36, Google 0.33, Yandex 0.28 i Apertium (que també oferim a Softcatalà) 0.19.
  • En una segona avaluació feta independentment el maig de 2020 per n’Antoni Oliver, director del màster en Traducció i tecnologies de la UOC, la puntuació BLEU obtinguda va ser: Traductor neuronal de Softcatalà 0.44, i Google Translator 0.34.

Els resultats d’aquestes dues avaluacions es permeten afirmar que com a mínim tenim una qualitat semblant a la de Google.

Podeu esmenar una paraula o frase que tradueix malament?

Directament no. El que podem fer és corregir els exemples dels quals aprèn la màquina o proporcionar-li’n més, però no podem modificar la xarxa neuronal (que té milions de connexions) un cop creada.

Com teniu pensat millorar-ne la qualitat?

Bàsicament, podem fer-ho de tres maneres:

  • Millorant la qualitat dels textos que usem per a entrenar els models.
  • Ampliant el nombre de corpus que usem per a entrenar els models (que la màquina disposi de més exemples).
  • Millorant la configuració de la xarxa neuronal.

Teniu pensat fer un traductor automàtic català – castellà amb aquesta tecnologia?

Pensem que per a llengües properes, com castellà i català, els sistemes de regles (com ara l’Apertium, que ja usem) funcionen millor que els neuronals. No pensem que es pugui fer quelcom significativament millor del que ja tenim. Per altra banda, ara mateix no tenim el maquinari necessari per a assumir la càrrega que representaria.

Com es pot ajudar a millorar-lo?

En aquest lloc web teniu la informació de com podeu ajudar 😄👍