Taller de traducció neuronal – Febrer 2023
Presentació
Taller gratuït ofert per Softcatalà per tal de formar nous col·laboradors que vulguin millorar i mantenir el sistema de traducció neuronal de Softcatalà, que és per exemple el que dona servei en el parell anglès – català de la nostra pàgina web https://www.softcatala.org/traductor/.
Busquem col·laboradors que ens ajudin a:
- Mantenir el servei actual en producció (Python, Flask)
- Millorar els parells de llengües actuals (p. ex. anglès – català)
- Afegir parells de llengües nous.
- Participar en la introducció de millores al sistema
- Treballar en l’avaluació de qualitat dels parells existents
Objectius del taller
- Donar nocions bàsiques de com funcionen els sistemes neuronals.
- Recrear els models sense introduir cap millora (noves versions dels programes, nou format de model, etc.)
- Editar un parell llengües ja existent (millorant-ho).
- Afegir-hi un nou parell de llengües.
Prerequisits
Us recomanem:
- Coneixements bàsics de línies d’ordres en qualsevol sistema operatiu.
- Copiar fitxers remots, connexions SSH, etc
- Coneixements molt bàsics de Python (per entendre al nivell que fan els scripts).
- Coneixements bàsics de Git.
- Dur un portàtil per poder fer el taller.
Com apuntar-s’hi
Ompliu aquest formulari
Tenim una capacitat molt limitada i volem donar prioritat als interessats que tinguin ja una idea definida de com els agradaria col·laborar amb Softcatalà.
Si us seleccionem us enviarem un correu amb més detalls de com us hi podeu apuntar.
Dades
- Data: dissabte 11 de febrer
- Horari: de 10 h a 13:45 h i de 16 h a 19:30 h.
- Lloc: COACB. c. de Casp n. 130.
Agenda
10.00 – 10-30 Benvinguda, objectius i agenda
10.30 – 11.15 Introducció a la traducció neuronal Com funcionen i conceptes bàsics: embeddings, hiperparàmetres, overfitting, etc
11.15 – 11-45 Descans i esmorzar
11.45 – 12.45 Descripció dels components del sistema de traducció neuronal a Softcatalà Programari que usem, components de la solució d’inici a final Inferència a producció
12.45 – 13.45 Descripció del procés d’entrenament i inferència a Softcatalà Corpus, tokenització, entrenament, avaluació, etc
13.45 a 16.00 Dinar Art i Tapes. c.de Mallorca 450.
16.00 – 16.30 – Afegir un nou parell de llengües Passos per afegir un nou parell de llengües usant el cas del japonès – català
16.30 a 17.15 – Projectes i oportunitats de col·laboració a Softcatalà
17.15 a 17.45 Entrenar models usant Kaggle
17.45 – 18.00 Descans
18.00 a 18.30 – Projecte Paracrawl
18.30 a 19.30 – Configurar el traductor a la màquina perquè la gent pugui fer inferència al vostre ordinador
Feina opcional prèvia de preparació
Si teniu temps abans de venir al taller:
- Llibre: Machine translation for everyone: Empowering users in the age of artificial intelligence
- Els corpus que usem per entrenar els models: https://github.com/Softcatala/parallel-catalan-corpus
- Els models neuronals publicats: https://github.com/Softcatala/nmt-model
- El sistema que ofereix el sistema a la web: https://github.com/Softcatala/nmt-softcatala
Conductors del taller
- Jordi Mas – Responsable dels sistemes de traducció neuronal a Softcatalà
- Marc Riera Irigoyen – Traductor i professor universitari de tecnologies de la traducció
- Mikel L. Forcada – Catedràtic d’universitat (Llenguatges i Sistemes Informàtics)
PMF
- Què passa si no complisc tots els prerequisits?
Els prerequisits ens serveixen per a conèixer millor el nivell del grup, però només són recomanacions. Pots apuntar-te i, segons disponibilitat i aforament, et direm.
- I si no puc anar presencialment a Barcelona?
Estem avaluant de retransmetre en directe l’inici i les conclusions (no podem assegurar-ho), però no podràs participar de la part pràctica.
- És un taller per a col·laboradors habituals?
Per a res! Volem que més gent se sume a col·laborar i aquest taller pot ser perfecte per a començar.