Tecnologies de la llengua en català

Compartiu

L’objectiu d’aquesta pàgina és descriure totes les tecnologies que podeu fer servir per a donar serveis web i construir les vostres aplicacions o extensions.

Si teniu dubtes o preguntes disposem d’un canal de Telegram per a tecnologies de la parla i un altre per a la resta de tecnologies de la llengua (correctors, traductors, etc).

Lliures

Aquesta secció descriu tecnologies de la llengua lliures en català.

Diccionaris

En el dipòsit catalan-dict-tools hi ha les dades i les eines necessàries per a construir els diccionaris que s’utilitzen en els correctors ortogràfics i gramaticals. Aquests diccionaris contenen paraules catalanes de múltiples fonts, de les principals varietats geogràfiques i amb informació de funció gramatical. Són els diccionaris usats per la majoria dels programes lliures (LibreOffice, Mozilla, etc.), el corrector LanguageTool i els que han permès desenvolupar un conjugador verbal.

Diccionaris de sinònims

Podeu baixar el diccionari de sinònims de Softcatalà des d’aquí.
Diccionari de sinònims d’Albert Jané, fora de línia (té llicència no lliure: Reconeixement-NoComercial-SenseObraDerivada)

Correctors gramaticals

LanguageTool és el corrector gramatical lliure més avançat que existeix. En el dipòsit de LanguageTool a GitHub hi trobareu les més de 3.000 regles que s’usen per a detectar errades gramaticals en català.

Traducció automàtica

Apertium és un traductor automàtic lliure basat en regles que suporta múltiples parells d’idiomes. Aquest és el traductor que utilitzem a Softcatalà per a tots els parells de llengües excepte l’anglès-català (que està en procés de migració).

nmt-softcatala és un projecte basat en OpenNMT que proporciona els models i la infraestructura per a fer la traducció anglès-català utilitzant tecnologies neuronals. És el que utilitzem a Softcatalà.

Síntesi de veu

A https://github.com/FestCat teniu les dades i el codi del projecte FestCat del TALP (UPC). Gràcies a aquest projecte tenim disponibles diferents veus en català per al motor TTS festival.

A https://github.com/CollectivaT-dev/catotron teniu un model Tacotron2/Kaldi per al català, anomenat Catotron. Aquest model està elaborat per Col·lectivaT.

Reconeixement de la parla

Models en català del motor de reconeixement de la parla Vosk.
Models neuronals de reconeixement de la parla publicats a https://github.com/ccoreilly/deepspeech-catala basats en diversos corpus lliures.

Freqüència d’aparició de mots en català

Llista de paraules ordenades per freqüència d’aparició als textos:

Llista de termes de l’antic projecte Gaia de Mozila.
Llista de freqüències i de lemes i formes dels diccionaris de Softcatalà

Models de llengua

A https://github.com/Softcatala/julibert teniu disponible un model RoBeRTa per al català.
A https://github.com/codegram/calbert teniu disponible un model ALBeRT per al català. Elaborat amb el corpus OSCAR.
A https://github.com/adriacabeza/DeepCatalan hi ha un model català de llengua tipus ULMFit.

Reconeixent òptic de caràcters

Tesseract és un OCR lliure de Google que suporta el català des de fa molts anys.

Adaptació de textos

L’adaptador de variants us permet adaptar automàticament textos del català al valencià. A Softcatalà l’usem per a mantenir les traduccions al valencià de programes com Firefox.

Hi ha un adaptador a la norma normativa de l’IEC (fet per la UOC) que us permet convertir els textos a la nova norma de forma automàtica.

Conversió de xifres en lletres

Numbertext permet convertir expressions numèriques a l’expressió equivalent escrita en lletres.

Eines per a l’anàlisi sintàctica i morfològica

FreeLing és una biblioteca de C++ que proporciona funcionalitats d’anàlisi de llenguatge (anàlisi morfològica, anàlisi sintàctica, detecció d’entitats, desambiguació de sentit de paraula, etiquetatge semàntic, etc.) per al català (i altres llengües).
Apertium disposa d’un POS tagger que us permet identificar les categories gramaticals. És el mateix que s’usa durant el procés de traducció.

Transcripció fonètica

espeak. Exemple: espeak –stdin -v ca -q -x –ipa=3 –stdout <<< “pèsol”
Phonetisaurus i Sequitur: es poden entrenar models a partir de parelles de paraules i la seva representació fonètica.
catalan2ipa: un mòdul npm basat en l’script lua que fa servir la Viquipèdia. Té la limitació que cal dir-li si les e/o no accentuades gràficament són obertes o tancades.
Amb Festival es pot extreure la representació fonètica passant-li un script en Scheme.
BaDaTran: base de dades de transcripcions fonètiques d’alguns diccionaris de referència.
Segre (transcriptor fonètic de català). No funciona. No és de codi obert.
TextAFon, executable amb llicència GNU, però sense codi font (!).
Alguns diccionaris amb transcripció fonètica: DNV (pronunciació valenciana de referència), DCVB (diferents varietats), Viccionari (diferents varietats).

No lliures

Aquesta secció descriu tecnologies de la llengua no lliures en català i sovint comercials.

Síntesi de veu

Aquests són els principals serveis de síntesi de veu en català:

Microsoft com a part dels serveis al núvol d’Azure proporciona síntesi de veu amb diferents veus, tant neuronal com tradicional.
Loquendo TTS
Acapela TTS Voices

Traducció automàtica

Existeixen un bon grapat de sistemes que proporcionen traducció automàtica entre el català i diferents llengües:

Google Translate
Amazon Translate
Microsoft Azure
Baidu
Yandex

La qualitat de la traducció varia molt depenent del parell de llengües que utilitzeu.

Reconeixement de la parla

Existeixen aquestes opcions:

Els serveis al núvol de Microsoft d’Azure de veu a text
Els serveis al núvol de Google Cloud
Loquendo ASR
Nuance Recognizer