Dades Obertes

Compartiu

En aquesta pàgina trobareu tots els conjunts de dades que Softcatalà ha creat com ara corpus i diccionaris. Les dades són clau en els sistemes de lingüística computacional, i imprescindibles per a l’aprenentatge automàtic. Obrim aquests dades amb l'esperit que serveixen a tothom per crear nous projectes.

Catalan Synonyms Word List

Llista de sinònims que conformen el Diccionari de sinònims de Softcatalà.


Catalan word list with part of speech labeling

En aquest repositori s'apleguen llistes de paraules etiquetades amb la categoria gramatical.


Europarl Catalan Corpus

Corpus paral·lel Europarl alemany-català i anglès-català.


Monolingual Catalan text corpus for Common Voice

Corpus monolingüe amb oracions publicades amb la llicència CC0.


Open source Catalan / English translation memories from open source programs

Memòries de traducció construïdes a partir de més de 180 projectes lliures.


Softcatalà Web Texts Dataset

Recull de tots els articles i descripcions de programes del lloc web de Softcatalà.


Tilde MODEL Catalan Corpus

Corpus paral·lel Tilde MODEL alemany-català.


Wikimedia common audio

Collection of audios in Catalan language with free licenses extracted from Wikimedia Common.