La intel·ligència artificial al vostre ordinador personal

Compartiu

Models d’intel·ligència artificial en català per a usar en local

Consell ràpid

Us indiquem els models de pesos lliures que funcionen millor en català.

A l’hora de triar un model, la memòria de què disposeu és el factor limitant més important. Més memòria, models més capaços.

 Ara mateix, la nostra recomanació és:

  • Els models Gemma 3 com a models de llenguatge
  • El model Whisper medium per a fer transcripcions

Aquests són models que usem internament a Softcatalà i que més enllà de l’avaluació quantitativa també tenim experiència qualitativa. Dit això, us oferim les dades quantitatives de les nostres avaluacions i convidem a provar altres models.

Models de llenguatge grans

La nostra recomanació són els models Gemma 3.

Per a determinar quin model és millor, avaluem les tasques més comunes que fan els usuaris: reformulació, traducció, resums,  etc.

Avaluacions dels models que hem provat

Cada fila de la taula és un model que hem avaluat. Cada columna és una tasca diferent (respondre preguntes, resumir, traduir, etc). Per a cada tasca, passem el mateix conjunt de proves a tots els models i comparem la seva sortida amb una resposta de referència feta per humans. Com més s’hi acosta, més alta és la puntuació.

Tingueu en compte

  • Els models amb el nom en negreta no els podeu executar a l’ordinador i els incloem només com a referència. Aquests models requereixen entre 80 i 150 vegades més memòria i computació que els models que usem a l’ordinador.
  • Cal tenir en compte la mida del model. Un model 24B consumeix el doble que un 12B; llavors, més gran equival a més memòria.

Què mesurem?

  • STS: capacitat de jutjar si dues frases volen dir el mateix. El model assigna una puntuació de similaritat a parelles de frases i es calcula la correlació de Pearson (−1 a 1) amb les puntuacions donades per humans. Com més alta la correlació, millor.
  • catcola_mcc: detecció de gramaticalitat. El model classifica frases en català com a acceptables o no, i es compara amb l’etiqueta humana mitjançant el Matthews Correlation Coefficient (−1 a 1, on 0 equival a respondre a l’atzar i 1 a encertar-ho tot).
  • club_qa: mesura la comprensió lectora. Donat un text de la Viquipèdia i una pregunta, el model n’extreu la resposta. Es mesura el percentatge de respostes que coincideixen literalment amb la resposta esperada (0 a 1).
  • CaSum: capacitat de resumir. El model genera un resum d’un text i es compara amb un resum de referència humà mitjançant mètriques de solapament de paraules tipus ROUGE (0 a 1), que premien el contingut compartit entre els dos resums.
  • EN→CA / CA→EN: qualitat de la traducció automàtica entre anglès i català. La mètrica BLEU (0 a 1) compara seqüències de paraules de la traducció del model amb una traducció humana de referència; com més coincidències, més alta la puntuació.
  • CLAM (Catalan Language Aggregate Metric) és el nostre índex agregat: la mitjana de les puntuacions normalitzades de totes les tasques d’avaluació. Cada puntuació es normalitza amb la fórmula (valor − baseline) / (1 − baseline), on la baseline és el resultat que obtindria un model responent a l’atzar. Així, 0% equival a l’atzar i 100% a encertar-ho tot, i les tasques es poden comparar entre elles. El resultat final s’expressa en percentatge (0–100).

En totes les mètriques, com més alt és el nombre, millor. Gràcies a Meta, i els projectes Aina i IberBench per proporcionar els conjunts de dades d’avaluació.

Models de transcripció

Actualment, hi ha models com ara Omnilingual ASR de Meta o Whisper d’OpenAI.
Nosaltres recomanem Whisper medium perquè té una bona qualitat, és ràpid i està molt ben suportat a un gran conjunt d’eines.

Si heu de transcriure programes de televisió o ràdio en català, el model whisper-large-v3-ca-3catparla del projecte Aina, entrenat amb 710 hores de TV catalana, pot donar millors resultats que el Whisper estàndard en aquest domini específic.

A sota teniu una avaluació feta amb 200 àudios d’exemple del corpus FLEURS. El WER indica el percentatge de paraules mal transcrites i el CER el de caràcters (com més baixos, millor). L’RTF indica el temps de processament (com més alt, més lent).

Avaluacions dels models que hem provat

El sistema que fem servir per crear aquestes avaluacions està disponible com a codi obert: https://github.com/Softcatala/ai-eval-catalan


⬅ Torneu a la pàgina la intel·ligència artificial al teu ordinador personal