Softcatalà Web Texts Dataset

Compartiu

Descripció

En aquest repositori s’apleguen tots els articles que s’han publicat a Softcatalà i les descripcions dels programes i aplicacions que s’hi han registrat. Els textos estan agrupats en dos fitxers diferents, tant en format JSON com XML.

  • Articles: 350.000 paraules i 623 articles.
  • Descripcions: 49.000 paraules i 330 descripcions.

Adreça de descàrrega:

https://github.com/Softcatala/softcatala-web-dataset
Autors:

Softcatalà

Jordi Mas

Llicència:

CC BY-SA 4.0