Descripció
Aquest recull de frases en català està format per 33.000 segments sense etiquetar. Una de les aplicacions més important és el projecte Common Voice de Mozilla. Els textos provenen de diferents sectors, com l’administració pública, proverbis i noms de localitats.
Adreça de descàrrega:
https://github.com/Softcatala/ca-text-corpusAutors:
Softcatalà
Jordi Mas
Joan Montané
Jaume Ortolà
Llicència:
property | value | ||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
name | Monolingual Catalan Corpus for Common Voice |
||||||||||||||
description | This repository collects some public domain sentences in Catalan language used in Mozilla's Common Voice project. The dataset includes several files grouped by topic totaling 33 000 untagged segments. |
||||||||||||||
license |
|
||||||||||||||
sameAs | https://www.softcatala.org/dades-obertes/monolingual-catalan-text-corpus-for-common-voice/ |
||||||||||||||
url | https://github.com/Softcatala/ca-text-corpus |
||||||||||||||
creator |
|