En aquesta pàgina trobareu tots els conjunts de dades que Softcatalà ha creat com ara corpus i diccionaris. Les dades són clau en els sistemes de lingüística computacional, i imprescindibles per a l’aprenentatge automàtic. Obrim aquests dades amb l'esperit que serveixen a tothom per crear nous projectes.
Catalan Synonyms Word List
Llista de sinònims que conformen el Diccionari de sinònims de Softcatalà.
Catalan word list with part of speech labeling
En aquest repositori s'apleguen llistes de paraules etiquetades amb la categoria gramatical.
Monolingual Catalan text corpus for Common Voice
Corpus monolingüe amb oracions publicades amb la llicència CC0.
Open source Catalan / English translation memories from open source programs
Memòries de traducció construïdes a partir de més de 180 projectes lliures.
Softcatalà Web Texts Dataset
Recull de tots els articles i descripcions de programes del lloc web de Softcatalà.
Wikimedia common audio
Collection of audios in Catalan language with free licenses extracted from Wikimedia Common.