Millorem l’accessibilitat de les dades obertes de Softcatalà

Compartiu

Presentem una nova iniciativa per a millorar l'accés a dades obertes de Softcatalà, mitjançant un nou portal de Dades obertes i la publicació de les dades a la plataforma Hugging Face. Amb això, facilitem l'accés a tots els usuaris, desenvolupadors i el món de la recerca.

Millorem l’accessibilitat de les dades obertes de Softcatalà

Les dades obertes de Softcatalà

La disponibilitat de les dades obertes accessibles amb llicències lliures és un factor clau perquè una llengua avanci en les noves tecnologies. Especialment en el cas de llengües minoritzades com el català, és important facilitar la col·laboració tecnològica per a continuar creixent al costat de les llengües que tenen més pes en el món digital. Amb aquesta iniciativa volem aportar el nostre gra de sorra perquè les dades amb llicències lliures que generem siguin fàcilment accessibles.

Per tal de facilitar l’accés a aquestes dades a tots els usuaris, hem agrupat totes les dades en un nou portal de Dades obertes. Totes aquestes dades estan marcades amb etiquetatge schema.org, cosa que permet que indexadors com DataSet Search de Google les puguin trobar i indexar.

Aquestes dades són d’ús comú en el desenvolupament de sistemes d’aprenentatge automàtic, com ara reconeixement de la parla, traducció automàtica o sistemes per entendre diferents aspectes de la llengua. Algunes de les dades que amb aquesta iniciativa fem accessibles, com ara les dades del diccionari de sinònims, són importants per a tècniques com l’augmentació de dades, que permeten incrementar el nombre de dades disponibles en àmbits on són minses.

Alguns serveis de Softcatalà, com el diccionari de sinònims o el traductor automàtic, estan basats en grans conjunts de dades que han servit per a entrenar models o classificar la informació. Actualment, els conjunts de dades disponibles són els següents:

  • Llista de sinònims: aplega totes les entrades del diccionari de sinònims amb informació gramatical i d’ús.
  • Llista de mots en català amb categoria gramatical: aquest conjunt pot servir per a crear correctors ortogràfics i diccionaris.
  • Corpus monolingüe del Common Voice: recull una sèrie de frases i expressions que s’han utilitzat en el projecte Common Voice de Mozilla.
  • Conjunt de dades del lloc web de Softcatalà: està format pels textos de tots els articles que ha publicat Softcatalà i de les descripcions dels programes i aplicacions.
  • Corpus bilingües Europarl (ca-en; ca-de) i Tilde MODEL (ca-de): aquests dos corpus paral·lels es van fer servir per a l’entrenament dels motors de traducció automàtica neuronal.

Hugging Face

A més a més d’oferir-los des de la web de Softcatalà (que enllaça a GitHub), també hem penjat els principals conjunts de dades a l’espai de Softcatalà a Hugging Face, on desenvolupadors poden aportar tant conjunts com models que hagin entrenat amb IA. L’objectiu de Hugging Face és fomentar l’ús de l’aprenentatge automàtic, i un dels projectes més importants que encapçala és Big Science, que reuneix 600 investigadors per a entrenar un model de llengua neuronal multilingüe a partir d’un gran conjunt de dades també multilingüe. Afortunadament, aquest projecte inclou el català i farà servir alguns dels conjunts de dades de Softcatalà.

També volem destacar la feina que s’està fent des d’universitats, grups de recerca, empreses i usuaris, que fan que ara mateix hi hagi un nombre important de dades obertes en català.

Quant a Softcatalà

Softcatalà és una associació sense afany de lucre que treballa per la normalització de la llengua catalana en el sector informàtic relacionat amb Internet i les noves tecnologies, a partir de la traducció de programari lliure i de distribució gratuïta. Per a més informació sobre els programes que aquesta associació ha traduït al català, podeu consultar el seu lloc web a https://www.softcatala.org.


Comentaris