Google Summer of Code

Compartiu

2017 – Millora del traductor automàtic anglés-català

Introducció

Una de les línies estratègiques de Softcatalà és la creació i millora d’eines lingüístiques en català. Com a part d’aquesta tasca i, concretament, amb el traductor, Softcatalà s’ha involucrat en el Google Summer of Code (GSoC) de 2017, adreçat a estudiants universitaris, a través del projecte Apertium, per tal d’aconseguir una millora en el parell de traducció anglés-català a través de la idea “Adopt a language pair“.

La idea consisteix en agafar les dades existents en el parell anglés català actual (tant l’antic apertium-en-ca com el modern apertium-eng-cat) i consolidar tota la informació en el nou apertium-eng-cat, per a posteriorment millorar els resultats que genera el traductor afegint nou lèxic i regles de traducció, principalment en el sentit angles -> català.

Objectius

A grans trets, els objectius que es pretén aconseguir són:

  1. Consolidar l’estat actual en el parell apertium-eng-cat
    • Analitzar les diferències entre l’apertium-en-ca i l’apertium-eng-cat
    • Si apertium-en-ca té cap millora sobre el segon, migrar-la al nou paquet.
  2. Afegir paraules desconegudes segons freqüència d’aparició, amb l’objectiu d’augmentar la cobertura del traductor
    • Per a mesurar la freqüència d’aparició de paraules, i avaluar la cobertura, podem utilitzar distintes fonts de text com a corpus d’entrenament i de proves:
      • Wikipedia (utilitzant, per exemple, els articles de qualitat de la Wikipedia en anglés)
      • Llibres en domini públic
  3. Disminuir el cost de la post-edició de textos millorant les regles de traducció
    • En aquest cas, no es tracta de que el traductor sàpiga traduir més, sinó millor. Afegir les regles que calguen (inspirant-se en altres parells, com el eng-spa o eng-fra) per reduir la quantitat de canvis que s’han de fer a una traducció generada per l’apertium-eng-cat

Requisits

Els requisits per a participar al GSoC són els següents:

  • Cal ser major de 18 anys.
  • Cal ser estudiant universitari en alguna de les universitats acreditades (totes les públiques de l’Estat Espanyol ho són).
  • Heu de poder treballar al país on residiu durant el programa.
  • No podeu haver estat acceptat com a estudiant del GSoC més d’una vegada.
  • No podeu residir en un país que ha pateix un embargament per part dels Estats Units. Podeu trobar més informació a les regles del programa.

A més, per a poder fer satisfactòriament aquest projecte en concret, cal

  • Nivell suficientment alt d’anglés i de català
  • Coneixement de (o ganes d’aprendre a utilitzar) Linux o macOS
    • Ús de la línia d’ordres
    • Edició de fitxers XML
    • Control de versions (SVN/git)

Idealment, tot i que no està restringit a això, els estudiants de Traducció i Interpretació, Enginyeria en Informàtica o en Màsters com el de Tradumàtica.

Recompensa

A més de la satisfacció personal d’haver col·laborat en un projecte de codi obert, que contribueix positivament en tota la societat, els alumnes que siguen acceptats al GSoC poden rebre fins a 5.400 dòlars, repartits de la següent manera

  • Primera avaluació (pagament a principis de juliol): 30%
  • Segona avaluació (pagament a principis d’agost): 30%
  • Avaluació final (pagament a mitjans de setembre): 40%

Contacte

Si esteu interessat a participar, envieu-nos tan aviat com siga possible un missatge a gsoc@softcatala.org i començarem a treballar en una proposta. Només tenim fins al 3 d’abril per enviar-la a Google!

Més informació

Si teniu dubtes sobre el GSoC podeu llegir la traducció que hem fet de les «preguntes més freqüents» del GSoC (o les FAQ originals en anglés)