Europarl Catalan Corpus

Compartiu

Descripció

El corpus Europarl (versió 7) està format per totes les actes del Parlament Europeu. La versió en català s’ha obtingut mitjançant el servei de traducció automàtica d’Apertium a partir del castellà.

  • Bicorpus alemany-català: 1.700.000 segments.
  • Bicorpus anglès-català: 1.900.000 segments.

Aquest conjunt de dades es pot fer servir per a entrenar models de traducció automàtica neuronal i s’ha utilitzat en els motors de traducció automàtica de Softcatalà alemany-català i alemany-anglès.

Adreça de descàrrega:

https://github.com/Softcatala/Europarl-catalan
Autors:

Softcatalà

David Cànovas

Jordi Mas

Llicència:

CC-BY 4.0