Tecnologies de la llengua en català

Compartiu

L’objectiu d’aquesta pàgina és descriure totes les tecnologies que podeu fer servir per a donar serveis web i construir les vostres aplicacions o extensions.

Si teniu dubtes o preguntes disposem d’un canal de Telegram per a tecnologies de la parla i un altre per a la resta de tecnologies de la llengua (correctors, traductors, etc).

Lliures

Aquesta secció descriu tecnologies de la llengua lliures en català.

Diccionaris

En el dipòsit catalan-dict-tools hi ha les dades i les eines necessàries per a construir els diccionaris que s’utilitzen en els correctors ortogràfics i gramaticals. Aquests diccionaris contenen paraules catalanes de múltiples fonts, de les principals varietats geogràfiques i amb informació de funció gramatical. Són els diccionaris usats per la majoria dels programes lliures (LibreOffice, Mozilla, etc.), el corrector LanguageTool i els que han permès desenvolupar un conjugador verbal.

Diccionaris de sinònims

  • Podeu baixar el diccionari de sinònims de Softcatalà des d’aquí.
  • Diccionari de sinònims d’Albert Jané, fora de línia (té llicència no lliure: Reconeixement-NoComercial-SenseObraDerivada)

Correctors gramaticals

LanguageTool és el corrector gramatical lliure més avançat que existeix. En el dipòsit de LanguageTool a GitHub hi trobareu les més de 3.000 regles que s’usen per a detectar errades gramaticals en català.

Traducció automàtica

Apertium és un traductor automàtic lliure basat en regles que suporta múltiples parells d’idiomes. Aquest és el traductor que utilitzem a Softcatalà per a tots els parells de llengües excepte l’anglès-català (que està en procés de migració).

nmt-softcatala és un projecte basat en OpenNMT que proporciona els models i la infraestructura per a fer la traducció anglès-català utilitzant tecnologies neuronals. És el que utilitzem a Softcatalà.

Síntesi de veu

A https://github.com/FestCat teniu les dades i el codi del projecte FestCat del TALP (UPC). Gràcies a aquest projecte tenim disponibles diferents veus en català per al motor TTS festival.

A https://github.com/CollectivaT-dev/catotron teniu un model Tacotron2/Kaldi per al català, anomenat Catotron. Aquest model està elaborat per Col·lectivaT.

Reconeixement de la parla

Freqüència d’aparició de mots en català

Llista de paraules ordenades per freqüència d’aparició als textos:

Models de llengua

Reconeixent òptic de caràcters

Tesseract és un OCR lliure de Google que suporta el català des de fa molts anys.

Adaptació de textos

L’adaptador de variants us permet adaptar automàticament textos del català al valencià. A Softcatalà l’usem per a mantenir les traduccions al valencià de programes com Firefox.

Hi ha un adaptador a la norma normativa de l’IEC (fet per la UOC) que us permet convertir els textos a la nova norma de forma automàtica.

Conversió de xifres en lletres

Numbertext permet convertir expressions numèriques a l’expressió equivalent escrita en lletres.

Eines per a l’anàlisi sintàctica i morfològica

  • FreeLing és una biblioteca de C++ que proporciona funcionalitats d’anàlisi de llenguatge (anàlisi morfològica, anàlisi sintàctica, detecció d’entitats, desambiguació de sentit de paraula, etiquetatge semàntic, etc.) per al català (i altres llengües).
  • Apertium disposa d’un POS tagger que us permet identificar les categories gramaticals. És el mateix que s’usa durant el procés de traducció.

Transcripció fonètica

  • espeak. Exemple: espeak –stdin -v ca -q -x –ipa=3 –stdout <<< “pèsol”
  • Phonetisaurus i Sequitur: es poden entrenar models a partir de parelles de paraules i la seva representació fonètica.
  • catalan2ipa: un mòdul npm basat en l’script lua que fa servir la Viquipèdia. Té la limitació que cal dir-li si les e/o no accentuades gràficament són obertes o tancades.
  • Amb Festival es pot extreure la representació fonètica passant-li un script en Scheme.
  •  BaDaTran: base de dades de transcripcions fonètiques d’alguns diccionaris de referència.
  • Segre (transcriptor fonètic de català). No funciona. No és de codi obert.
  • TextAFon, executable amb llicència GNU, però sense codi font (!).
  • Alguns diccionaris amb transcripció fonètica: DNV (pronunciació valenciana de referència),  DCVB (diferents varietats), Viccionari (diferents varietats).

No lliures

Aquesta secció descriu tecnologies de la llengua no lliures en català i sovint comercials.

Síntesi de veu

Aquests són els principals serveis de síntesi de veu en català:

Traducció automàtica

Existeixen un bon grapat de sistemes que proporcionen traducció automàtica entre el català i diferents llengües:

  • Google Translate
  • Amazon Translate
  • Microsoft Azure
  • Baidu
  • Yandex

La qualitat de la traducció varia molt depenent del parell de llengües que utilitzeu.

Reconeixement de la parla

Existeixen aquestes opcions: