2017 – Millora del traductor automàtic anglés-català
Introducció
Una de les línies estratègiques de Softcatalà és la creació i millora d’eines lingüístiques en català. Com a part d’aquesta tasca i, concretament, amb el traductor, Softcatalà s’ha involucrat en el Google Summer of Code (GSoC) de 2017, adreçat a estudiants universitaris, a través del projecte Apertium, per tal d’aconseguir una millora en el parell de traducció anglés-català a través de la idea “Adopt a language pair“.
La idea consisteix en agafar les dades existents en el parell anglés català actual (tant l’antic apertium-en-ca com el modern apertium-eng-cat) i consolidar tota la informació en el nou apertium-eng-cat, per a posteriorment millorar els resultats que genera el traductor afegint nou lèxic i regles de traducció, principalment en el sentit angles -> català.
Objectius
A grans trets, els objectius que es pretén aconseguir són:
- Consolidar l’estat actual en el parell apertium-eng-cat
- Analitzar les diferències entre l’apertium-en-ca i l’apertium-eng-cat
- Si apertium-en-ca té cap millora sobre el segon, migrar-la al nou paquet.
- Afegir paraules desconegudes segons freqüència d’aparició, amb l’objectiu d’augmentar la cobertura del traductor
- Per a mesurar la freqüència d’aparició de paraules, i avaluar la cobertura, podem utilitzar distintes fonts de text com a corpus d’entrenament i de proves:
- Wikipedia (utilitzant, per exemple, els articles de qualitat de la Wikipedia en anglés)
- Llibres en domini públic
- Per a mesurar la freqüència d’aparició de paraules, i avaluar la cobertura, podem utilitzar distintes fonts de text com a corpus d’entrenament i de proves:
- Disminuir el cost de la post-edició de textos millorant les regles de traducció
- En aquest cas, no es tracta de que el traductor sàpiga traduir més, sinó millor. Afegir les regles que calguen (inspirant-se en altres parells, com el eng-spa o eng-fra) per reduir la quantitat de canvis que s’han de fer a una traducció generada per l’apertium-eng-cat
Requisits
Els requisits per a participar al GSoC són els següents:
- Cal ser major de 18 anys.
- Cal ser estudiant universitari en alguna de les universitats acreditades (totes les públiques de l’Estat Espanyol ho són).
- Heu de poder treballar al país on residiu durant el programa.
- No podeu haver estat acceptat com a estudiant del GSoC més d’una vegada.
- No podeu residir en un país que ha pateix un embargament per part dels Estats Units. Podeu trobar més informació a les regles del programa.
A més, per a poder fer satisfactòriament aquest projecte en concret, cal
- Nivell suficientment alt d’anglés i de català
- Coneixement de (o ganes d’aprendre a utilitzar) Linux o macOS
- Ús de la línia d’ordres
- Edició de fitxers XML
- Control de versions (SVN/git)
Idealment, tot i que no està restringit a això, els estudiants de Traducció i Interpretació, Enginyeria en Informàtica o en Màsters com el de Tradumàtica.
Recompensa
A més de la satisfacció personal d’haver col·laborat en un projecte de codi obert, que contribueix positivament en tota la societat, els alumnes que siguen acceptats al GSoC poden rebre fins a 5.400 dòlars, repartits de la següent manera
- Primera avaluació (pagament a principis de juliol): 30%
- Segona avaluació (pagament a principis d’agost): 30%
- Avaluació final (pagament a mitjans de setembre): 40%
Contacte
Si esteu interessat a participar, envieu-nos tan aviat com siga possible un missatge a gsoc@softcatala.org i començarem a treballar en una proposta. Només tenim fins al 3 d’abril per enviar-la a Google!
Més informació
Si teniu dubtes sobre el GSoC podeu llegir la traducció que hem fet de les «preguntes més freqüents» del GSoC (o les FAQ originals en anglés)