Descripció
El corpus Europarl (versió 7) està format per totes les actes del Parlament Europeu. La versió en català s’ha obtingut mitjançant el servei de traducció automàtica d’Apertium a partir del castellà.
- Bicorpus alemany-català: 1.700.000 segments.
- Bicorpus anglès-català: 1.900.000 segments.
Aquest conjunt de dades es pot fer servir per a entrenar models de traducció automàtica neuronal i s’ha utilitzat en els motors de traducció automàtica de Softcatalà alemany-català i alemany-anglès.
Adreça de descàrrega:
https://github.com/Softcatala/Europarl-catalanAutors:
Softcatalà
David Cànovas
Jordi Mas
Llicència:
property | value | ||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
name | Catalan-German and Catalan-English Europarl Corpus |
||||||||||||
description | The Europarl corpus contains texts from the procedures of the European Parliament. The Europarl release for this dataset is v7. The Catalan versión has been translated using Apertium machine rule base system from Spanish to Catalan. The Catalan-English bitext contains 1.9 M segments, and the Catalan-German contains 1.7 M segments. |
||||||||||||
license |
|
||||||||||||
sameAs | https://www.softcatala.org/dades-obertes/catalan-europarl-corpus/ |
||||||||||||
url | https://github.com/Softcatala/Europarl-catalan |
||||||||||||
creator |
|