Valencianitzador usant LanguageTool
Objectiu: crear un valencianitzador usant LanguageTool.
Això ens permetria oferir per exemple versions en valencià en el traductor per a totes les llengües
Per a fer un valencianitzador complet, usant LanguageTool, caldria:
- Agafar un llibre d’estil determinat amb totes les característiques o preferències lingüístiques que es volen aplicar.
- Configurar les regles existents de LanguageTool i crear totes les regles noves que calguen. L’objectiu hauria de ser tenir un resultat quasi perfecte, sense que calga postedició (p. ex. “de sortir” – > “d’eixir”, no “de eixir”).
- Integrar-ho on corresponga. En l’eixida d’Apertium? En la web de Softcatalà?
- Un plus seria resoldre la qüestió de les dreceres de teclat o altres marques. Això ho trobem sovint en les memòries de traducció de programari. Però potser és una qüestió més general, per a qualsevol traductor automàtic, no específica del valencianitzador.
- (- En la direcció cat>val és factible i relativament fàcil. En la contrària la cosa es complica perquè en les formes valencianes hi ha més ambigüitat. Però en aquesta direcció contrària normalment no cal.)
Això no sé si dóna per a un TFG. Les qüestions de verbs i accentuació ja estan resoltes. Faltaria el vocabulari.
Millorar el sistema actual d’extracció terminològica
A Softcatalà disposem d’un sistema d’extracció de terminologia automàtic. Veure: https://www.softcatala.org/recursos/terminologia/ i el codi https://github.com/Softcatala/translation-memory-tools/tree/master/src/terminology
Tasques:
- Auditar el sistema actual per entendre les limitacions (p. ex. només extreu de frases curtes, no flexiona, etc.)
- Proposar com podríem millorar el sistema actual o bé amb millores incrementals o canviant l’algorisme completament
Traducció automàtica
Millora i manteniment del traductor Apertium castellà-català (spa-cat)
Motivació: El traductor castellà-català (amb tecnologia Apertium, basat en regles) és un servei molt usat, i per això qualsevol millora pot redundar en grans beneficis per als usuaris.
Objectiu: Analitzar de manera sistemàtica les deficiències del traductor Apertium spa-cat, fer propostes de millora, i aprendre a introduir-hi canvis i fer-ne el manteniment.
Requisits: Coneixements lingüístics avançats de català i castellà (estudis de traducció o filologia). Familiaritat amb eines informàtiques i disposició per a aprendre a fer-les servir (XML, git).
Millorar la qualitat del corpus Wikimatrix anglès – català
Objectiu: millorar el corpus Wikimatrix que usem per a l’entrenament del traductor neuronal anglès-català
Veure descripció del problema: https://github.com/Softcatala/nmt-softcatala/issues/15. Inclou:
- Fer una avaluació de la qualitat del corpus
- Fer millores en el corpus (tornar a exportar-lo amb paràmetres diferents, filtratges, etc.)
- Comprovar amb l’avaluació d’1) que la qualitat ha millorat
Avaluació del motor de traducció automàtica Marian
Objectiu: Avaluar Marian per determinar latència en inferència i qualitat (BLEU) dels models en comparació al que tenim amb OpenNMT.
Que caldria fer:
- Entrenar models amb Marian usant els mateixos corpus que usat amb OpenNMT https://github.com/Softcatala/parallel-catalan-corpus/
- Comparar la qualitat dels models contra https://github.com/Softcatala/nmt-models (avaluació amb BLEU i humana)
- Avaluació del rendiment de la inferència
Estandarditzar l’ús de segona i tercera persona en el traductor neuronal
Objectiu: que el traductor anglès – català generi text en segona persona (en comptes de la barreja actual)
Descripció detallada del problema: https://github.com/Softcatala/nmt-softcatala/issues/31
Traducció amb desdoblament de gènere
Objectiu: poder oferir traduccions al català amb masculí i femení quan hi ha ambigüitat de gènere en anglès per a reduir biaixos.
Quan traduïm de l’anglès al català es poden produir casos com ara «doctor» en anglès que no sabem si és masculí o femení.
Verificació de noves llengües
Cada cop que publiquem un parell de llengües noves (per exemple, català – gallec) caldria fer almenys una petita avaluació amb humans amb els objectius de:
- Verificar que el parell de llengües té utilitats per als usuaris finals. Com a mínim que els textos traduïts serveixen per a entendre el text original, i si és possible, que en pocs canvis podria ser una traducció vàlida.
- Detectar errors majors que pugui haver-hi: no processa certs caràcters, frases molt comunes les fa malament, etc
- Si existeix una alternativa (Google o Apertium) comparar-ho amb el traductor neuronal per entendre com avaluen els usuaris els dos sistemes.
Com fer-ho, usem com a exemple el català-gallec:
- Cal seleccionar unes quantes frases (mínim 100 i màxim 500) de diferents dominis (periodístiques, textos administratius i educatius com a mínim) en la llengua origen (per exemple, el català).
- Traduir amb el traductor neuronal i l’altra opció (p. ex. Apertium) les frases seleccionades
- Posar tot en un full de càlcul on cada línia contingui una columna amb el text original (català en aquest cas), traduït pel neuronal, per Apertium, i una valoració de l’usuari de la traducció neuronal, i una valoració de l’usuari de la traducció Apertium. Com demanar valorar les traduccions cal documentar-ho més.
- Coordinar l’ajuda d’usuaris que parlin gallec i que ens pugui ajudar en aquesta validació
En aquest exemple és el que cal fer pel català – gallec, però després caldria fer-ho en la direcció inversa, o el text original és en gallec i les traduccions automàtiques al català.
Projectes de traducció en què cal ajuda
LibreOffice
Teniu tota la informació del projecte a https://www.softcatala.org/projectes/libreoffice/
Al canal de Telegram https://t.me/libreoffice_catala pots adreçar-te per qualsevol dubte que tinguis sobre com començar.
GNOME
Teniu tota la informació del projecte a https://www.softcatala.org/projectes/gnome/
Al canal de Telegram https://t.me/gnome_catala pots adreçar-te per qualsevol dubte que tinguis sobre com començar.
Exploració de nous productes
Xatbot sobre llengua
Amb ChatGPT és possible preguntar-li a un bot coses com conjugaries aquesta forma verbal, com traduiries aquest text, o com escriuries això millor (vegeu fil https://twitter.com/jordimash/status/1598917602092277761)
Reconeixement de la parla
Corpus amb els pòdcasts de Softcatalà
Per validar, entrenar i refinar models de reconeixement de la parla, és molt útil tenir àudios transcrits. Els episodis del pòdcast “Quinze glaçons d’hidrogen” poden ser una font interessant per aquest objectiu, ja que són converses reals, amb diferents parlants, diferents accents i de durada llarga.
La nostra filosofia és d’obrir totes les dades que generem així que les dades d’aquests àudios transcrits, ben preparades, es publicaran en aquest repositori perquè siguin útils per l’aprenentatge automàtic.
Ens cal gent que ens ajudi a revisar la transcripció automàtica dels diferents episodis que ha fet un model neuronal. Cal deixar-la acurada, ja que l’objectiu és tenir àudios amb transcripcions revisades per humans amb la màxima precisió. És una tasca una mica llarga, però força senzilla. A priori no sembla que calgui gaire més d’una hora per cada 30 minuts d’àudio. En el següent enllaç trobareu els àudios i els textos de les transcripcions:
Com a referència de resultat final, teniu d’exemple la transcripció de l’episodi 9 (15GdH9), després d’una revisió humana acurada.
Si voleu col·laborar, contacteu amb Aleix Vidal <aleix@softcatala.org>.
Escriure articles científics
Veure com a referència: https://arxiv.org/
La idea és recollir el més valuós quant a coneixement que hem fet, sobretot en el camp de la traducció neuronal, i compartir el coneixement escrivint articles amb l’esperit que sigui útil per a altres.
Projectes de desenvolupament
Memòries de traducció
Caldria modernitzar el codi d’aquesta aplicació: https://github.com/Softcatala/translation-memory-tools
En concret:
- Usar “f-strings” en comptes dels antics {0}, etc
- Usar “Type Hinting” pels paràmetres d’entrada i sortida
- Qualsevol altre canvi que sigui necessari